[发明专利]虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备在审

申请号：	202111261314.3	申请日：	2021-10-28
公开（公告）号：	CN113971828A	公开（公告）日：	2022-01-25
发明（设计）人：	张展望;胡天舒;洪智滨;徐志良	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V40/16	分类号：	G06V40/16;G06V10/774;G06V10/766;G06V10/74;G06K9/62
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	刘念
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚拟对象驱动方法模型训练相关装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取语音片段和虚拟对象的目标脸部图像数据；将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作，得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据；其中，所述第一目标模型基于第一模型和第二模型训练得到，所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、深度学习技术领域，具体涉及一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备。

背景技术

随着人工智能(Artificial Intelligence，AI)和大数据技术的蓬勃发展，AI已经渗透到生活的方方面面，而虚拟对象技术是AI技术中一个比较重要的子领域，其可以通过AI技术如深度学习技术构建一个虚假的对象影像，同时驱动这个虚拟对象的脸部表情，以模拟人的说话。

脸部表情驱动的主要应用在于通过语音来实现虚拟对象的唇形驱动，以达到语音与唇形同步的目的。目前，虚拟对象唇形驱动方案通常是关注唇音同步精度，通过对虚拟对象的脸部图像进行特征提取，并将语音对应的唇形与脸部纹理进行渲染，从而达到唇音同步的目的。

发明内容

本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备。

根据本公开的第一方面，提供了一种虚拟对象唇形驱动方法，包括：

获取语音片段和虚拟对象的目标脸部图像数据；

将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作，得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据；

其中，所述第一目标模型基于第一模型和第二模型训练得到，所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。

根据本公开的第二方面，提供了一种模型训练方法，包括：