[发明专利]数字人手势生成的方法、装置、设备和存储介质在审

申请号：	202310296375.6	申请日：	2023-03-23
公开（公告）号：	CN116524074A	公开（公告）日：	2023-08-01
发明（设计）人：	高楠;曾智;张树武;张桂煊;赵泽宇	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李梦晨
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数字人手生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种数字人手势生成的方法、装置、设备和存储介质，该方法包括：获取待生成数字人手势的目标音频文件；基于脚本生成模型，确定所述目标音频文件对应的动作发生序列；基于所述动作发生序列以及手势生成模型，控制生成的代表性手势和节奏性手势合成为所述目标音频文件对应的数字人手势。本发明提供的方法通过由脚本生成模型确定的目标音频文件对应的动作发生序列，有效控制同步语音下的数字人手势合成，将手势解耦并建模得到代表性手势生成模型和节奏性手势生成模型，结合手势生成模型分别得到的代表性手势和节奏性手势，可以生成更自然且丰富的手势，使数字人手势的效果更真实。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数字人手势生成的方法、装置、设备和存储介质。

背景技术

数字人通过识别系统理解和分析外界输入，产生针对驱动信号的反馈结果，并基于这些决策合成相应的数字人语音和行为动作，实现和人类的互动交流。数字人动作驱动效果是影响数字人拟人化程度的关键因素。特别地，手势有很强的辅助表达作用，作为非语言信息可以有效促进表达。

近年来深度学习技术的发展也促进手势生成技术的发展，采用大规模的数据集，采用深层神经网络对多模态之间的关系进行建模。现有的生成数字人手势的方法多数采用固定的规则，匹配定义好的数据库中的手势，而这些固定的规则需要专业人士及先验知识来进行设计，且对于复杂的语音场景，生成的结果不够丰富，真实感与自然感不足。实现的门槛较高，对应的结果也不是很理想。

因此，如何利用现有的大规模的数据集，生成富有真实感和自然感的数字人手势已成为业界亟待解决的技术问题。

发明内容

针对现有技术中存在的技术问题，本发明提供一种数字人手势生成的方法、装置、设备和存储介质。

第一方面，本发明提供一种数字人手势生成的方法，包括：

获取待生成数字人手势的目标音频文件；

基于脚本生成模型，确定所述目标音频文件对应的动作发生序列；所述动作发生序列用于表示在任意时刻是否存在手势动作；

基于所述动作发生序列以及手势生成模型，控制生成的代表性手势和节奏性手势合成为所述目标音频文件对应的数字人手势；

所述脚本生成模型是基于具有语音信息和动作信息的第一视频文件确定的训练样本训练得到的；所述手势生成模型包括第一手势生成模型和第二手势生成模型，所述第一手势生成模型用于生成代表性手势，所述第二手势生成模型用于生成节奏性手势。

可选地，所述基于所述动作发生序列以及手势生成模型，控制生成的代表性手势和节奏性手势合成为所述目标音频文件对应的数字人手势，包括：

基于所述第一手势生成模型，生成所述目标音频文件对应的代表性手势；

基于所述第二手势生成模型，生成所述目标音频文件对应的节奏性手势；

基于所述动作发生序列以及预设的合成规则，对所述代表性手势和所述节奏性手势进行融合，得到所述目标音频文件对应的数字人手势；所述预设的合成规则用于限定任意时刻的数字人手势基于所述代表性手势和所述节奏性手势中任一或组合确定。