[发明专利]一种虚拟形象的面部驱动方法、装置、设备和介质有效
| 申请号: | 202110534983.7 | 申请日: | 2021-05-17 |
| 公开(公告)号: | CN113223125B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 陈超;赵亚飞;张世昌;郭紫垣 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06T13/40 | 分类号: | G06T13/40;G06T13/20 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 虚拟 形象 面部 驱动 方法 装置 设备 介质 | ||
1.一种虚拟形象的面部驱动方法,包括:
获取目标驱动多媒体信息,其中,目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息;
形成与目标驱动多媒体信息对应的多个驱动源组,驱动源组包括:图像帧和与图像帧关联的音频片段;
在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段;形成与所述目标图像帧对应的目标高维视觉特征集,并形成与所述目标音频片段对应的目标高维语音特征集;将目标高维视觉特征集与目标高维语音特征集进行特征融合,形成目标声像融合特征集,并确定与目标声像融合特征集对应的面部控制参数;
分别使用与各驱动源组对应的面部控制参数,对虚拟形象进行面部驱动。
2.根据权利要求1所述的方法,其中,形成与目标驱动多媒体信息对应的多个驱动源组,包括:
获取所述目标驱动多媒体信息中包括的多个图像帧,并获取每个图像帧在目标驱动多媒体信息中的出现时刻点;
形成与各出现时刻点分别对应的关联时间区间;
在目标驱动多媒体信息中,分别截取与各所述关联时间区间对应的音频片段;
将各所述音频片段与匹配的图像帧进行组合,形成多个驱动源组。
3.根据权利要求2所述的方法,其中,形成与各出现时刻点分别对应的关联时间区间,包括:
以各出现时刻点为中心,分别向两个时间延伸方向上延伸设定时长,形成与各出现时刻点分别对应的关联时间区间。
4.根据权利要求1所述的方法,其中,形成与所述目标图像帧对应的目标高维视觉特征集,并形成与所述目标音频片段对应的目标高维语音特征集,包括:
提取所述目标图像帧中包括的人脸关键点;
将人脸关键点识别结果输入至预先训练的视觉网络中,得到目标高维视觉特征集;
提取目标音频片段中的目标低维语音特征集,并将目标低维语音特征集输入至预先训练的语音网络中,得到目标高维语音特征集。
5.根据权利要求1所述的方法,其中,将目标高维视觉特征集与目标高维语音特征集进行特征融合,形成目标声像融合特征集,并确定与目标声像融合特征集对应的面部控制参数,包括:
将所述目标高维视觉特征集与目标高维语音特征集输入至预先训练的融合输出网络中;
通过融合输出网络中的融合层,将目标高维视觉特征集与目标高维语音特征集进行特征融合,形成目标声像融合特征集;
通过融合输出网络中的至少一个全连接层,根据所述目标声像融合特征集,确定出与所述目标声像融合特征集对应的面部控制参数;
通过融合输出网络中的输出层,输出与目标声像融合特征集对应的面部控制参数。
6.根据权利要求5所述的方法,其中,通过融合输出网络中的融合层,将目标高维视觉特征集与目标高维语音特征集进行特征融合,形成目标声像融合特征集,包括:
通过融合输出网络中的融合层,将目标高维视觉特征集与目标高维语音特征集进行数据拼接,形成目标声像融合特征集。
7.根据权利要求5所述的方法,其中,通过融合输出网络中的融合层,将目标高维视觉特征集与目标高维语音特征集进行特征融合,形成目标声像融合特征集,包括:
通过融合输出网络中的融合层,将目标高维视觉特征集与目标高维语音特征集进行设定的数据运算处理,形成目标声像融合特征集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534983.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型脚轮装置
- 下一篇:一种具有抗紫外性能的聚氨酯及其制备方法





