[发明专利]一种基于卷积神经网络的说话人脸视频生成方法及装置有效
申请号: | 202110637611.7 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113378697B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 李腾;刘晨然;王妍 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08;G10L21/10 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 230039 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 说话 视频 生成 方法 装置 | ||
1.一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述方法包括:
步骤一:构建数据集;
步骤二:设计唇音同步判别器;
步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步;
步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
2.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤一包括:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
3.根据权利要求2所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
4.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤三包括:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110637611.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:TFT显示开发系统
- 下一篇:基于自容式电液执行器的一体化速关调节阀