[发明专利]音视频拟合关联的计算方法、装置、介质和设备在审
| 申请号: | 202111442573.6 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN113963092A | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 王苏振;李林橙;丁彧;吕唐杰;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06T13/40 | 分类号: | G06T13/40;G10L15/02;G10L25/03;G10L25/48;G06N3/04;G06N3/08 |
| 代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
| 地址: | 310056 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 拟合 关联 计算方法 装置 介质 设备 | ||
本发明提供了一种音视频拟合关联的计算方法,利用了目标语音的音素特征和语音特征,还利用了从参考图像中提取结构特征,相比现有技术,音视频拟合关联的计算结果的泛化性和口型视觉表征效果得到了提升,以该计算结果为依据合成的人脸说话动画的质量也相应提升。此外,本发明还提供了音视频拟合关联的计算装置、介质和设备。实施本发明提供的各个具体实施方式作为人脸说话动画合成的前置准备,可以显著提高人脸说话动画的合成质量和最终效果。
技术领域
本发明属于神经网络和人工智能领域,尤其涉及一种音视频拟合关联的计算方法、装置、介质和设备。
背景技术
音视频拟合关联计算中的人脸语音动画构建,指的是基于输入的任意语音,以参考图像中给定的人物形象为基准,合成上述人物形象的虚拟语音动画。理想情况下,生成的虚拟语音动画需要呈现与输入的语音中相匹配的口型、表情、自然的头部运动。该技术可广泛应用于虚拟助手、智能客服、新闻播报、远程会议等多个领域,并基于人工智能大幅度降低相关行业的人工劳动。
现有技术中构建人脸语音动画的技术主要依赖于视频数据的语音视觉关联计算,其目的是从源数据中构建与说话动作关联的特征,并借助这些特征使用深度生成模型生成仿真的人脸图像,从而得到仿真的人脸图像说出指定语音的动画效果。
当选用三维形变模型或人脸关键点作为视觉模态表征时,缺乏对人脸外区域的表征,因此深度生成模型合成的人脸语音动画在人脸区域外会产生模糊的效果,导致人脸语音动画的质量不佳。
当选用语音特征作为语音模态表征时,若训练数据的来源为单一对象,则深度生成模型的泛化性欠佳,若训练数据的来源为多个对象,由于多个对象之间的差异,深度生成模型无法学习到准确的语音视觉关联表征。
当选用单一对象的音素特征作为语音模态表征时,虽然一定程度上解决了难以提升音色泛化的问题,但音素特征难以与自然语音中的情绪相关联,以此训练所得的深度生成模型生成的人脸语音动画具有明显的动作瑕疵,例如在说出语气比较强烈的语句时的嘴部动作不自然。
可见,现有技术中的各个解决方案均难以得到高质量的人脸语音动画。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了一种音视频拟合关联的计算方法,该方法包括:
获取头动编码序列、目标语音和包含目标头像的参考图像;
从所述目标语音中提取音素特征序列和语音特征序列;
从所述参考图像中提取结构特征;
将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列,以及将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列;
将所述第一联合编码序列输入至基于注意力机制的神经网络模型的编码器中,所述编码器获得目标语音帧的隐空间表征;
将所述隐空间表征和所述第二联合编码序列共同输入至所述基于注意力机制的神经网络模型的解码器中,其中所述隐空间表征为所述解码器的键值对注意力,所述第二联合编码序列为所述解码器的查询向量;
所述解码器输出所述目标语音帧的特征向量;
将所述特征向量转化为密集运动场的描述参数。
根据本发明的一个方面,该方法中所述获取头动编码序列的步骤包括:根据一预设的头动数据生成所述头动编码序列;或根据与所述目标语音相匹配的视频生成所述头动编码序列。根据本发明的另一个方面,该方法中所述从目标语音中提取音素特征序列和语音特征序列的步骤包括:将所述目标语音按照预设周期拆分为多个语音帧;分别提取各个语音帧的音素特征和语音特征;根据预设的时序窗口,选择多个所述音素特征组成所述音素特征序列,以及选择多个所述语音特征组成所述语音特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111442573.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于石膏仓的中心给料机及给料方法
- 下一篇:基于智慧灯具的智能车库系统





