[发明专利]虚拟形象口型驱动模型的训练及其驱动方法、装置和设备在审
申请号: | 202211352170.7 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115691544A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 姚粤汉;陈增海 | 申请(专利权)人: | 广州方硅信息技术有限公司 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L21/18;G10L13/04;G10L25/30;G10L25/57;G06V10/774;H04N5/04 |
代理公司: | 广州市律帆知识产权代理事务所(普通合伙) 44614 | 代理人: | 余永文 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 形象 口型 驱动 模型 训练 及其 方法 装置 设备 | ||
1.一种虚拟形象口型驱动模型的训练方法,其特征在于,所述方法包括:
获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;
根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;
根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;
根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
2.根据权利要求1所述的方法,其特征在于,所述由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数,包括:
由所述人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的纯人声音频,并将所述混合音频样本中的纯人声音频作为所述人声部分信息提供至所述口型系数预测网络;
由所述口型系数预测网络根据所述混合音频样本中的纯人声音频获取对应的时频谱,并根据所述时频谱得到对应的预测口型驱动系数;
所述根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,包括:
将所述人声信息提取网络提取的所述混合音频样本中的纯人声音频作为所述对应的预测纯人声音频。
3.根据权利要求1所述的方法,其特征在于,所述由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数,包括:
由所述人声信息提取网络根据所述混合音频样本获取所述混合音频样本对应的时频谱,并根据所述混合音频样本对应的时频谱提取所述混合音频样本中的纯人声音频对应的时频谱,以及将所述混合音频样本中的纯人声音频对应的时频谱作为所述人声部分信息提供至所述口型系数预测网络;
由所述口型系数预测网络根据所述混合音频样本中的纯人声音频对应的时频谱得到对应的预测口型驱动系数;
所述根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,包括:
根据所述人声信息提取网络提取的所述混合音频样本中的纯人声音频对应的时频谱,得到对应的预测纯人声音频。
4.根据权利要求1至3任一项所述的方法,其特征在于,
所述获取纯音乐音频样本,包括:
获取多种类型的纯音乐音频样本;
所述根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,包括:
根据与音频采集场景相适配的混合比例,将所述多种类型的纯音乐音频样本中的至少两种类型的纯音乐音频样本与所述音画同步视频样本中的纯人声音频进行混合,得到所述混合音频样本。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数,包括:
根据所述纯人声音频在所述音画同步视频样本中对应的时间段,获取对应的视频图像序列;
根据所述视频图像序列,得到用于提取口型驱动系数的视频图像;
将所述视频图像输入人脸表情捕捉模型,得到所述人脸表情捕捉模型输出的所述视频图像对应的人脸表情系数;
根据所述人脸表情系数,得到纯人声音频对应的口型驱动系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州方硅信息技术有限公司,未经广州方硅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211352170.7/1.html,转载请声明来源钻瓜专利网。