[发明专利]交互对象驱动和音素处理方法、装置、设备以及存储介质有效
申请号: | 202110604874.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113314104B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 吴文岩;吴潜溢;高娜;钱晨 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L13/02;G10L13/08;G10L13/10;G10L21/10;G10L25/24 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 董晓盈 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交互 对象 驱动 音素 处理 方法 装置 设备 以及 存储 介质 | ||
公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
技术领域
本公开涉及计算机技术领域,具体涉及一种交互对象驱动和音素处理方法、装置、设备以及存储介质。
背景技术
数字人是利用深度学习的方法,将所发出的声音与所呈现的口型、表情、动作等相匹配。随着数字人在众多领域的广泛应用,在许多场景下需要数字人能够支持多语种。
目前,通常利用语音识别模型所提取的声音特征,或者利用音素时间戳得到的声音特征来驱动数字人,然而这些特征在不同的语种下是有区别的,且深度学习需要针对不同语种的数据集,而当前开源数据集存在质量低、标注不完整、数据不均衡等问题。
如何实现数字人对多语种的支持是目前需要积极研究的问题。
发明内容
本公开实施例提供一种交互对象驱动和音素处理方案。
根据本公开的一方面,提供一种交互对象的驱动方法,所述方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练,可以提高对所述特征提取网络训练的效率和质量,并利用该网络提取所述声音驱动数据的音素后验特征,作为声音特征驱动所述交互对象,由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征,使得交互对象的姿态在不同语种下都与真实发音相贴合。
结合本公开提供的任一实施方式,所述获取交互对象的声音驱动数据的声学特征,包括:获取所述交互对象的声音驱动数据对应的语音帧序列;根据所述语音帧序列中各个语音帧的声学特征向量,得到所述声音驱动数据的声学特征。
结合本公开提供的任一实施方式,所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络,所述利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率,包括:将所述声学特征输入至所述第一全连接网络,得到所述第一全连接网络输出的第一声学特征序列;利用所述编码子网络,对所述第一声学特征序列进行特征编码处理;将编码结果输入至所述第二全连接网络,得到所述声音驱动数据中各个语音帧的音素后验概率。
在本公开实施例中,通过将所述声音特征转换为序列,通过适用于提取序列特征的编码网络进行特征提取,并通过全连接网络分类处理,可以准确地预测出声音特征数据中各个语音帧的音素后验概率。
结合本公开提供的任一实施方式,所述根据所述各个音素的音素后验概率,得到所述交互对象的姿态参数值,包括:将所述各个语音帧的音素后验概率输入至时序网络,输出关联特征信息;将所述关联特征信息输入至第三全连接网络,得到关联特征序列;对所述关联特征序列进行激活处理,得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。
通过时序网络和全连接网络来预测所述声音驱动数据中各个语音帧的音素后验概率对应的姿态参数值,以将具有关联性的历史音素后验概率和当前音素后验概率进行融合,从而使得历史姿态参数值对当前姿态参数值的变化产生影响,使得交互人物的姿态参数值的变化更加平缓、自然。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110604874.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人脸识别方法、装置、电子设备及存储介质
- 下一篇:可移动防倾倒的电脑机箱