[发明专利]音视频拟合关联的计算方法、装置、介质和设备在审
| 申请号: | 202111442573.6 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN113963092A | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 王苏振;李林橙;丁彧;吕唐杰;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06T13/40 | 分类号: | G06T13/40;G10L15/02;G10L25/03;G10L25/48;G06N3/04;G06N3/08 |
| 代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
| 地址: | 310056 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 拟合 关联 计算方法 装置 介质 设备 | ||
1.一种音视频拟合关联的计算方法,其特征在于,所述方法包括:
获取头动编码序列、目标语音和包含目标头像的参考图像;
从所述目标语音中提取音素特征序列和语音特征序列;
从所述参考图像中提取结构特征;
将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列,以及将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列;
将所述第一联合编码序列输入至基于注意力机制的神经网络模型的编码器中,所述编码器获得目标语音帧的隐空间表征;
将所述隐空间表征和所述第二联合编码序列共同输入至所述基于注意力机制的神经网络模型的解码器中,其中所述隐空间表征为所述解码器的键值对注意力,所述第二联合编码序列为所述解码器的查询向量;
所述解码器输出所述目标语音帧的特征向量;
将所述特征向量转化为密集运动场的描述参数。
2.根据权利要求1所述的方法,其特征在于,所述获取头动编码序列的步骤包括:
根据一预设的头动数据生成所述头动编码序列;或
根据与所述目标语音相匹配的视频生成所述头动编码序列。
3.根据权利要求1所述的方法,其特征在于,所述从目标语音中提取音素特征序列和语音特征序列的步骤包括:
将所述目标语音按照预设周期拆分为多个语音帧;
分别提取各个语音帧的音素特征和语音特征;
根据预设的时序窗口,选择多个所述音素特征组成所述音素特征序列,以及选择多个所述语音特征组成所述语音特征序列。
4.根据权利要求1所述的方法,其特征在于,所述从参考图像中提取结构特征的步骤包括:
将所述参考图像输入一预训练好的无监督关键点检测器,提取所述无监督关键点检测器的中间层输出的特征图表征作为所述结构特征。
5.根据权利要求1所述的方法,其特征在于,在将所述语音特征序列与所述结构特征进行拼接得到第二图像联合编码序列之前,该方法还包括:
使用上采样卷积网络分别修改所述语音特征序列中各个语音特征的通道维度,使所述语音特征的通道维度与所述结构特征一致。
6.根据权利要求1所述的方法,其特征在于,所述将所述特征向量转化为密集运动场的描述参数的步骤包括:
使用全连接层将所述特征向量转化为所述描述参数。
7.根据权利要求6所述的方法,其特征在于,所述使用全连接层将所述目标语音帧的特征向量转化为所述描述参数的步骤包括:
将所述目标语音帧的特征向量分别输入两个全连接模型,通过所述两个全连接模型分别输出对应类别的所述描述参数。
8.根据权利要求1所述的方法,其特征在于,所述描述参数包括:
用于组成密集运动场的关键点参数、与所述关键点对应的局部仿射变换参数。
9.根据权利要求1所述的方法,其特征在于,在所述将所述特征向量转化为密集运动场的描述参数之后,该方法还包括:
根据所述描述参数生成包含所述目标头像的视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111442573.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于石膏仓的中心给料机及给料方法
- 下一篇:基于智慧灯具的智能车库系统





