[发明专利]虚拟角色表情生成方法、控制方法、装置和终端设备在审
| 申请号: | 202010283348.1 | 申请日: | 2020-04-10 |
| 公开(公告)号: | CN111489424A | 公开(公告)日: | 2020-08-04 |
| 发明(设计)人: | 郑一星;张智勐;陈佳丽;丁彧;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06T13/40 | 分类号: | G06T13/40;G06N3/08;G06N3/04;G10L25/24;G10L25/30;G10L25/63 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
| 地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 虚拟 角色 表情 生成 方法 控制 装置 终端设备 | ||
本发明提供了一种虚拟角色表情生成方法、控制方法、装置和终端设备;包括:确定音频数据和音频数据对应的情绪标签,情绪标签用于表征虚拟角色在游戏场景播放音频数据时的情绪;提取音频数据的语音特征;将语音特征和情绪标签输入至神经网络模型,输出音频数据对应的混合变形参数,其中,神经网络模型为预先基于标注有情绪标签的语音样本特征训练完成的;根据混合变形参数控制虚拟角色在游戏场景播放音频数据时的表情。通过神经网络模型输出混合变形参数无需通过专业的演员和昂贵的演员录制设备制作视频,可以节约生成虚拟角色表情的时间成本和金钱成本;并且,神经网络明显输出的混合变形参数考虑了情绪标签的影响,生成的表情更加自然。
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种虚拟角色表情生成方法、控制方法、装置和终端设备。
背景技术
随着游戏业务的发展,游戏的虚拟角色越来越趋向于逼真化。其中,游戏制作方为了提升游戏与玩家的交互性,越来越重视虚拟角色说话时表情的自然程度。为了构建虚拟角色需要设置blendshape(混合变形)参数,通过混合变形参数控制虚拟角色的表情,目前,混合变形参数主要根据演员表演的视频或者需要播放的音频生成。
其中,如果根据演员表演的视频生成混合变形参数,演员会穿戴专业的演员录制设备做出合理的表情,并记录演员的脸部视频。针对每帧脸部视频,都会有专门的标注人员对演员脸部的关键点位置进行标注。由于关键点的位置和混合变形参数存在一一对应的关系,可以根据关键点的位置计算出混合变形参数,进而控制虚拟角色的表情。然而,这种方法具有以下缺点:1、需要专业的演员和昂贵的演员录制设备;2、标注人员需要花费较长的时间标注演员脸部的关键点位置;3、难以根据玩家的需求定制虚拟角色的表情。
发明内容
有鉴于此,本发明的目的在于提供一种虚拟角色表情生成方法、控制方法、装置和终端设备,以节约生成虚拟角色表情的时间成本和金钱成本,为虚拟角色生成自然的表情。
第一方面,本发明实施例提供了一种虚拟角色表情生成方法,包括:确定音频数据和音频数据对应的情绪标签,其中,情绪标签用于表征虚拟角色在游戏场景播放音频数据时的情绪;提取音频数据的语音特征;将语音特征和情绪标签输入至神经网络模型,输出音频数据对应的混合变形参数;其中,神经网络模型为预先基于标注有情绪标签的语音样本特征训练完成的;根据混合变形参数控制虚拟角色在游戏场景播放音频数据时的表情。
在本发明较佳的实施例中,上述确定音频数据和音频数据对应的情绪标签的步骤,包括:获取包含有虚拟角色的游戏场景;游戏场景还配置有至少一个音频数据;每个音频数据配置有虚拟角色对应的情绪标签。
在本发明较佳的实施例中,上述语音特征包括梅尔倒谱系数(MFCC,MelFrequency Cepstrum Coefficient)特征;上述提取音频数据的语音特征的步骤,包括:将音频数据进行高通滤波,得到音频帧优化序列;对音频帧优化序列进行采样,得到多个目标帧信号;其中,采样的持续时间大于采样的间隔时间;对每个目标帧信号的两端进行衰减,得到每个目标帧的优化帧信号;对于每个优化帧信号进行快速傅里叶变换,得到每个优化帧信号对应的频域信号;将每个频域信号输入预设的三角滤波器组,输出每个频域信号对应的对数能量;将每个对数能量进行离散余弦变换,得到音频数据对应的梅尔倒谱系数特征。
在本发明较佳的实施例中,在上述将音频数据输入高通滤波器进行高通滤波的步骤之前,方法还包括:将音频数据转化为16kHz单声道的音频数据。
在本发明较佳的实施例中,在上述将每个对数能量进行离散余弦变换,得到音频数据对应的梅尔倒谱系数特征的步骤之后,方法还包括:对梅尔倒谱系数特征加上预先设定的平均能量信息。
在本发明较佳的实施例中,上述神经网络模型通过以下方式训练:基于预设的样本集合对神经网络模型进行训练;其中,样本集合包括多个训练语音特征,每个训练语音特征标注有情绪标签和训练语音特征对应的标准混合变形参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010283348.1/2.html,转载请声明来源钻瓜专利网。





