[发明专利]虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备在审
申请号: | 202111261314.3 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113971828A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 张展望;胡天舒;洪智滨;徐志良 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/766;G06V10/74;G06K9/62 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 刘念 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 对象 驱动 方法 模型 训练 相关 装置 电子设备 | ||
1.一种虚拟对象唇形驱动方法,包括:
获取语音片段和虚拟对象的目标脸部图像数据;
将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;
其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
2.根据权利要求1所述的方法,其中,所述第一目标模型基于第一模型和第二模型训练得到,包括:
基于目标唇形图像样本数据对所述第一模型进行训练得到第三模型;
基于所述目标唇形图像样本数据对所述第二模型进行训练得到第四模型;
基于所述第三模型和所述第四模型训练得到所述第一目标模型;
其中,所述目标唇形图像样本数据的清晰度大于第一预设阈值,所述目标唇形图像样本数据中脸部相对于预设方向的偏移角度小于第二预设阈值。
3.根据权利要求1所述的方法,其中,所述第一唇形驱动操作包括:
分别对所述目标脸部图像数据和所述语音片段进行特征提取,得到所述目标脸部图像数据的第一特征和所述语音片段的第二特征;
将所述第一特征和所述第二特征进行对齐,得到第一目标特征;
基于所述第一目标特征构建所述第一唇形图像数据。
4.根据权利要求3所述的方法,所述基于所述第一目标特征构建所述第一唇形图像数据之前,还包括:
采用注意力机制对所述目标脸部图像数据进行图像回归,得到针对所述目标脸部图像数据中与唇形相关的区域的掩码图像;
所述基于所述第一目标特征构建所述第一唇形图像数据,包括:
基于所述第一目标特征生成所述虚拟对象在所述语音片段驱动下的第二唇形图像数据;
将所述目标脸部图像数据、所述第二唇形图像数据和所述掩码图像进行融合,得到所述第一唇形图像数据。
5.根据权利要求3所述的方法,其中,所述第一特征包括高层全局特征和底层细节特征,所述将所述第一特征和所述第二特征进行对齐,得到第一目标特征,包括:
将所述高层全局特征和所述底层细节特征分别与所述第二特征进行对齐,得到第一目标特征;
其中,所述第一目标特征包括对齐后的所述高层全局特征和对齐后的所述底层细节特征。
6.一种模型训练方法,包括:
获取第一训练样本集,所述第一训练样本集包括第一语音样本片段和虚拟对象样本的第一脸部图像样本数据;
将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作,得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像数据;
分别基于第一模型和第二模型,对所述第三唇形图像数据和所述第一语音样本片段进行唇音同步判别,得到第一判别结果和第二判别结果;所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型;
基于所述第一判别结果和所述第二判别结果,确定所述第一目标模型的目标损失值;
基于所述目标损失值,更新所述第一目标模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111261314.3/1.html,转载请声明来源钻瓜专利网。