[发明专利]虚拟形象口型驱动模型的训练及其驱动方法、装置和设备在审
申请号: | 202211352170.7 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115691544A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 姚粤汉;陈增海 | 申请(专利权)人: | 广州方硅信息技术有限公司 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L21/18;G10L13/04;G10L25/30;G10L25/57;G06V10/774;H04N5/04 |
代理公司: | 广州市律帆知识产权代理事务所(普通合伙) 44614 | 代理人: | 余永文 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 形象 口型 驱动 模型 训练 及其 方法 装置 设备 | ||
本申请涉及网络直播及人工智能技术领域,提供一种虚拟形象口型驱动模型的训练及其驱动方法、装置、设备和介质。本申请能够准确可靠地驱动虚拟形象口型。包括:根据纯音乐音频样本和音画同步视频样本中纯人声音频得到混合音频样本,根据音画同步视频样本中纯人声音频对应的视频图像获取口型驱动系数;将混合音频样本输入虚拟形象口型驱动模型,由人声信息提取网络提取混合音频样本中人声部分信息并提供至口型系数预测网络,由该网络得到预测口型驱动系数;根据人声部分信息得到预测纯人声音频,根据该预测纯人声音频与纯人声音频得到第一损失,根据预测口型驱动系数与口型驱动系数得到第二损失,根据第一、第二损失训练虚拟形象口型驱动模型。
技术领域
本申请涉及网络直播及人工智能技术领域,特别是涉及一种虚拟形象口型驱动模型的训练方法、虚拟形象的驱动方法、装置、电子设备和计算机可读存储介质。
背景技术
随着网络直播技术的发展,虚拟形象直播在游戏、电商等业务领域已经有了广泛的应用。
在目前的技术中,虚拟形象的口型驱动主要来自人脸表情捕捉设备,其通过摄像头采集主播的人脸图像并据此计算出口型驱动系数,但这种方案需依赖于良好的光照环境和采集角度,其难以准确可靠地驱动虚拟形象的口型,而目前另外一种基于声音的虚拟形象口型驱动技术中,通过分析语音中声韵母或音标的包络幅值,通过对应的预设时序数据进行口型驱动,但这种方案在实际场景中需要针对音标进行时序数据的预设,而通过有限的音标对应的时序数据同样难以准确可靠地驱动虚拟形象的口型。
发明内容
基于此,有必要针对上述技术问题,提供一种虚拟形象口型驱动模型的训练方法、虚拟形象的驱动方法、装置、电子设备和计算机可读存储介质。
第一方面,本申请提供了一种虚拟形象口型驱动模型的训练方法。所述方法包括:
获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;
根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;
根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;
根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
第二方面,本申请提供了一种虚拟形象的驱动方法。所述方法包括:
采集主播的音频;将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型根据如上所述的方法训练得到;根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
第三方面,本申请提供了一种虚拟形象口型驱动模型的训练装置。所述装置包括:
样本获取模块,用于获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
样本处理模块,用于根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州方硅信息技术有限公司,未经广州方硅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211352170.7/2.html,转载请声明来源钻瓜专利网。