[发明专利]一种基于卷积神经网络的说话人脸视频生成方法及装置有效
申请号: | 202110637611.7 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113378697B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 李腾;刘晨然;王妍 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08;G10L21/10 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 230039 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 说话 视频 生成 方法 装置 | ||
本发明公开了一种基于卷积神经网络的说话人脸视频生成方法及装置,所述方法包括:构建数据集;设计唇音同步判别器;利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;构建说话人脸生成网络;利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频;本发明的优点在于:能够生成清晰度较高且唇部运动与语音同步的真实性较高的说话人脸视频。
技术领域
本发明涉及语音驱动说话人脸视频生成领域,更具体涉及一种基于卷积神经网络的说话人脸视频生成方法及装置。
背景技术
语音驱动的说话人脸生成旨在给定任意一段语音,生成与语音内容对应的人脸说话视频。近年来,语音驱动说话人脸视频生成技术是深度学习领域的热门研究话题,并以广泛的应用于动画角色合成,虚拟交互,电影配音等领域中。
语音驱动的人脸生成是多模态生成任务,实现音频听觉信息与视觉信息间的映射。现有的方法在低分辨率图像取得好效果,但在高分辨率图像中生成的人脸图片清晰度低,尤其是牙齿区域会出现模糊问题,这些图像使人感到不真实。人类对视频中唇部运动和音频的同步具有较低的容忍度。因此,生成的说话视频与语音同步也是一个关键挑战。现有方法仅使用人脸重建损失或较弱的口型同步判别器来判断视频中唇部运动与语音同步程度高低,生成的说话视频真实度低,与语音不同步,给人不够真实的感觉。
中国专利申请号CN202010387250.0,公开了一种语音驱动的三维人脸动画生成方法,包括以下步骤:1)提取语音特征,并将该语音的身份信息嵌入到特征矩阵中;2)通过编码器将特征矩阵映射到低维空间,得到中间变量;3)利用解码器将中间变量映射到3D顶点位移的高维空间,对中间变量进行3D图形几何的约束,得到3D空间的位移量;4)根据获取的3D空间的位移量驱动模板模拟面部动画。与现有技术相比,该专利申请创新性地利用了3D几何图形特性来约束中间变量,通过引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。但是该专利申请对于生成的人脸图片清晰度以及唇部运动与语音同步控制均没有进行深入研究,不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。
发明内容
本发明所要解决的技术问题在于现有技术语音驱动说话人脸视频生成方法不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。
本发明通过以下技术手段实现解决上述技术问题的:一种基于卷积神经网络的说话人脸视频生成方法,所述方法包括:
步骤一:构建数据集;
步骤二:设计唇音同步判别器;
步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;
步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
本发明设计唇音同步判别器并训练唇音同步判别器,利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络,并训练说话人脸生成网络,将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频,唇音同步判别器实现唇部运动与语音同步,超分辨模块对人脸进行重建,解决高清视频中人脸模糊的问题,最终生成的说话人脸视频真实度较高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110637611.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:TFT显示开发系统
- 下一篇:基于自容式电液执行器的一体化速关调节阀