[发明专利]一种实时音频驱动人脸生成方法、装置及服务器有效

申请号：	202111082204.0	申请日：	2021-09-15
公开（公告）号：	CN113793408B	公开（公告）日：	2023-05-30
发明（设计）人：	司马华鹏;屈奇勋;范宏伟;李佳斌	申请（专利权）人：	宿迁硅基智能科技有限公司
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40;G06V40/16;G10L25/24;G06N3/0464;G06N3/084;G06N3/0455
代理公司：	北京弘权知识产权代理有限公司 11363	代理人：	逯长明;许伟群
地址：	223808 江苏省宿***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实时音频驱动生成方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实时音频驱动人脸生成方法，其特征在于，包括：

获取训练视频的图像信息和与所述训练视频同步的音频信息；

对所述图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；

根据所述人脸姿态特征，获取像素姿态特征，包括：将所述人脸姿态特征进行特征变换，得到对应的摄像机姿态特征，所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量，根据所述平移向量计算并记录平移向量的均值及标准差，通过所述均值及所述标准差对所述平移向量进行标准化，将标准化处理后的每帧摄像机姿态特征映射到以视频帧图像为范围的标准化设备坐标上，以获取像素姿态特征；

所述像素位置特征由以下步骤得到：根据所述图像信息获取每帧图像的图像尺寸，所述图像尺寸对应的图像包括多个像素，所述像素对应有原始像素位置特征；将每个所述像素利用预设公式进行编码，得到每个所述像素对应编码后的像素位置特征；将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征，以获得更新后的像素位置特征；

对所述音频信息进行特征提取，得到每帧图像的音频特征；

构建神经辐射场模型，所述神经辐射场模型用于生成渲染图像；

根据每帧图像的所述像素姿态特征、所述像素位置特征和所述音频特征训练所述神经辐射场模型；

在训练所述神经辐射场模型的过程中，将所述神经辐射场模型渲染结果与训练视频的图像的差异，作为预设损失函数，所述预设损失函数为距离损失函数或加权距离损失函数；

在所述预设损失函数为所述距离损失函数时，根据所述渲染图像与所述训练视频的原图像计算得到所述预设损失函数，所述预设损失函数用于反向传播并训练所述神经辐射场模型，以获取目标神经辐射场模型；

在所述预设损失函数为所述加权距离损失函数时，获取人脸视频集合，所述人脸视频集合包括多个区域子集合，所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域，对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果，将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记，以获得权重矩阵，所述数值越大的区域子集合对应的权重越大，所述数值表示对预设损失函数的贡献，根据所述权重矩阵、所述渲染图像与所述训练视频的原图像计算得到所述预设损失函数，所述预设损失函数用于反向传播并训练所述神经辐射场模型，以获取目标神经辐射场模型；

将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。

2.根据权利要求1所述的方法，其特征在于，所述神经辐射场模型包括卷积网络编码器和卷积网络解码器；

所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。

3.根据权利要求1所述的方法，其特征在于，还包括：

对所述每帧分割结果进行人脸关键点检测，得到二维人脸关键点；

将所述二维人脸关键点与预设三维人脸模型进行关键点匹配，得到对应的三维人脸关键点；

根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系；

根据所述关键点转换关系获取当前图像的人脸姿态特征。

4.根据权利要求3所述的方法，其特征在于，根据每帧图像的所述像素姿态特征、所述像素位置特征和所述音频特征训练所述神经辐射场模型，包括：

将所述训练视频中每帧图像的所述像素位置特征、像素姿态特征和音频特征作为条件信息，输入至所述神经辐射场模型中进行图像渲染生成渲染图像。

5.根据权利要求4所述的方法，其特征在于，还包括：

通过所述摄像机姿态特征确定摄像机姿态方向；