[发明专利]虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备在审
申请号: | 202111261314.3 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113971828A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 张展望;胡天舒;洪智滨;徐志良 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/766;G06V10/74;G06K9/62 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 刘念 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 对象 驱动 方法 模型 训练 相关 装置 电子设备 | ||
本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域,具体涉及一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备。
背景技术
随着人工智能(Artificial Intelligence,AI)和大数据技术的蓬勃发展,AI已经渗透到生活的方方面面,而虚拟对象技术是AI技术中一个比较重要的子领域,其可以通过AI技术如深度学习技术构建一个虚假的对象影像,同时驱动这个虚拟对象的脸部表情,以模拟人的说话。
脸部表情驱动的主要应用在于通过语音来实现虚拟对象的唇形驱动,以达到语音与唇形同步的目的。目前,虚拟对象唇形驱动方案通常是关注唇音同步精度,通过对虚拟对象的脸部图像进行特征提取,并将语音对应的唇形与脸部纹理进行渲染,从而达到唇音同步的目的。
发明内容
本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备。
根据本公开的第一方面,提供了一种虚拟对象唇形驱动方法,包括:
获取语音片段和虚拟对象的目标脸部图像数据;
将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;
其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
根据本公开的第二方面,提供了一种模型训练方法,包括:
获取第一训练样本集,所述第一训练样本集包括第一语音样本片段和虚拟对象样本的第一脸部图像样本数据;
将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作,得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像数据;
分别基于第一模型和第二模型,对所述第三唇形图像数据和所述第一语音样本片段进行唇音同步判别,得到第一判别结果和第二判别结果;所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型;
基于所述第一判别结果和所述第二判别结果,确定所述第一目标模型的目标损失值;
基于所述目标损失值,更新所述第一目标模型的参数。
根据本公开的第三方面,提供了一种虚拟对象唇形驱动装置,包括:
第一获取模块,用于获取语音片段和虚拟对象的目标脸部图像数据;
第一操作模块,用于将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;
其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
根据本公开的第四方面,提供了一种模型训练装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111261314.3/2.html,转载请声明来源钻瓜专利网。