[发明专利]一种实时音频驱动人脸生成方法、装置及服务器有效
申请号: | 202111082204.0 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113793408B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 司马华鹏;屈奇勋;范宏伟;李佳斌 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40;G06V40/16;G10L25/24;G06N3/0464;G06N3/084;G06N3/0455 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 223808 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 音频 驱动 生成 方法 装置 服务器 | ||
1.一种实时音频驱动人脸生成方法,其特征在于,包括:
获取训练视频的图像信息和与所述训练视频同步的音频信息;
对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
根据所述人脸姿态特征,获取像素姿态特征,包括:将所述人脸姿态特征进行特征变换,得到对应的摄像机姿态特征,所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量,根据所述平移向量计算并记录平移向量的均值及标准差,通过所述均值及所述标准差对所述平移向量进行标准化,将标准化处理后的每帧摄像机姿态特征映射到以视频帧图像为范围的标准化设备坐标上,以获取像素姿态特征;
所述像素位置特征由以下步骤得到:根据所述图像信息获取每帧图像的图像尺寸,所述图像尺寸对应的图像包括多个像素,所述像素对应有原始像素位置特征;将每个所述像素利用预设公式进行编码,得到每个所述像素对应编码后的像素位置特征;将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得更新后的像素位置特征;
对所述音频信息进行特征提取,得到每帧图像的音频特征;
构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
根据每帧图像的所述像素姿态特征、所述像素位置特征和所述音频特征训练所述神经辐射场模型;
在训练所述神经辐射场模型的过程中,将所述神经辐射场模型渲染结果与训练视频的图像的差异,作为预设损失函数,所述预设损失函数为距离损失函数或加权距离损失函数;
在所述预设损失函数为所述距离损失函数时,根据所述渲染图像与所述训练视频的原图像计算得到所述预设损失函数,所述预设损失函数用于反向传播并训练所述神经辐射场模型,以获取目标神经辐射场模型;
在所述预设损失函数为所述加权距离损失函数时,获取人脸视频集合,所述人脸视频集合包括多个区域子集合,所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域,对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果,将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记,以获得权重矩阵,所述数值越大的区域子集合对应的权重越大,所述数值表示对预设损失函数的贡献,根据所述权重矩阵、所述渲染图像与所述训练视频的原图像计算得到所述预设损失函数,所述预设损失函数用于反向传播并训练所述神经辐射场模型,以获取目标神经辐射场模型;
将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述神经辐射场模型包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。
3.根据权利要求1所述的方法,其特征在于,还包括:
对所述每帧分割结果进行人脸关键点检测,得到二维人脸关键点;
将所述二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸关键点;
根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系;
根据所述关键点转换关系获取当前图像的人脸姿态特征。
4.根据权利要求3所述的方法,其特征在于,根据每帧图像的所述像素姿态特征、所述像素位置特征和所述音频特征训练所述神经辐射场模型,包括:
将所述训练视频中每帧图像的所述像素位置特征、像素姿态特征和音频特征作为条件信息,输入至所述神经辐射场模型中进行图像渲染生成渲染图像。
5.根据权利要求4所述的方法,其特征在于,还包括:
通过所述摄像机姿态特征确定摄像机姿态方向;
对所述训练视频中每帧图像在所述摄像机姿态方向上进行采样,得到多个采样点;
根据所述像素姿态特征、所述像素位置特征与所述音频特征得到多个所述采样点处的像素颜色值和像素密度值;
将多个所述采样点处的所述像素颜色值和像素密度值进行渲染,以获得渲染图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111082204.0/1.html,转载请声明来源钻瓜专利网。