[发明专利]虚拟说话人肢体手势生成方法、装置、设备及存储介质在审

申请号：	202110814936.8	申请日：	2021-07-19
公开（公告）号：	CN113674184A	公开（公告）日：	2021-11-19
发明（设计）人：	叶梓杰;贾珈;陈伟;王砚峰;王小川	申请（专利权）人：	清华大学;北京搜狗科技发展有限公司
主分类号：	G06T5/50	分类号：	G06T5/50;G06K9/00;G10L25/24;G06N3/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苟冬梅
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚拟说话肢体手势生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例涉及数据处理技术领域，具体涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质，旨在增加虚拟说话人肢体手势合成结果的自然度，提升虚拟形象的信息传达效果。所述方法包括：将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质。

背景技术

虚拟说话人合成技术是人工智能领域研究的热点方向，主要是通过音频驱动虚拟的说话人进行动作，有着广泛的应用前景。说话人的肢体手势的合成在虚拟说话人合成技术中是一个较为重要的任务，如何为说话人合成具有表现力、和说话内容相匹配、具有情感的肢体手势，以提升虚拟说话人的表达效果，是一个研究的重点。现有技术中，通常把说话音频和说话文本输入一个循环神经网络(RNN)或者卷积神经网络(CNN)中，输出一段虚拟人物的关节关键点序列，这个关键节点序列可以用来驱动虚拟人物做出相应的手势。

现有技术中，使用循环神经网络(RNN)或者卷积神经网络(CNN)作为算法模型的基本结构，然而受到自身结构特性的限制，这两种神经网络主要对说话人肢体手势的短时模式进行建模，无法对肢体手势序列中广泛存在的长时依赖关系以及更加复杂的时序模式进行建模，导致生成的肢体手势自然度受限，表现力不足，和真人的手势差别较大，虚拟说话人的自然度较低。

发明内容

本申请实施例提供一种虚拟说话人肢体手势生成方法、装置、设备及存储介质，旨在增加虚拟说话人肢体手势合成结果的自然度，提升虚拟形象的信息传达效果。

本申请实施例第一方面提供一种虚拟说话人肢体手势生成方法，所述方法包括：

将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；

通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；

通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。

可选地，所述自注意力肢体手势生成网络的训练步骤包括：

收集说话人视频；

对所述说话人视频进行处理，得到所述说话人视频中的说话音频、说话文本以及初始化手势序列；

将所述说话音频、说话文本以及初始化手势序列作为训练集，将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练，得到训练好的自注意力肢体手势生成网络。

可选地，通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括：

对所述说话音频进行计算，得到该段音频的梅尔频谱；