首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]虚拟说话人肢体手势生成方法、装置、设备及存储介质在审

申请号：	202110814936.8	申请日：	2021-07-19
公开（公告）号：	CN113674184A	公开（公告）日：	2021-11-19
发明（设计）人：	叶梓杰;贾珈;陈伟;王砚峰;王小川	申请（专利权）人：	清华大学;北京搜狗科技发展有限公司
主分类号：	G06T5/50	分类号：	G06T5/50;G06K9/00;G10L25/24;G06N3/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苟冬梅
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚拟说话肢体手势生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种虚拟说话人肢体手势生成方法，所述方法包括：

将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；

通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；

通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。

2.根据权利要求1所述的方法，其特征在于，所述自注意力肢体手势生成网络的训练步骤包括：

收集说话人视频；

对所述说话人视频进行处理，得到所述说话人视频中的说话音频、说话文本以及初始化手势序列；

将所述说话音频、说话文本以及初始化手势序列作为训练集，将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练，得到训练好的自注意力肢体手势生成网络。

3.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括：

对所述说话音频进行计算，得到该段音频的梅尔频谱；

将所述梅尔频谱输入音频编码器中，得到所述音频特征。

4.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括：

使用预训练好的语言模型对所述说话文本进行处理，得到语义特征；

将所述语义特征与所述音频特征进行时序对齐，得到对齐后的语义特征；

将所述对齐后的语义特征输入语义编码器，得到所述文本特征。

5.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述初始化手势序列进行特征提取的步骤包括：

将所述初始化手势序列输入初始化手势序列编码器，得所述初始化手势序列特征。

6.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列，包括：

将所述音频特征和所述文本特征进行加和，得到加和后的特征；

将所述加和后的特征和所述初始化手势序列特征输入解码器中，得到所述合成手势序列。

7.一种虚拟说话人肢体手势生成装置，其特征在于，所述装置包括：

数据输入模块，用于将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；

特征提取模块，用于通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；

手势合成模块，用于通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至6任一所述的方法中的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至6任一所述的方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司，未经清华大学;北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110814936.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于单目深度摄像头的人体测量的方法及系统
下一篇：一种山药牛髓粉及其制备方法

同类专利

专利分类

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T5-00 图像的增强或复原，如从位像到位像地建立一个类似的图形
G06T5-10 .利用非空间域滤波的
G06T5-20 .利用局部操作的
G06T5-40 .使用直方图技术的
G06T5-50 .通过使用多于一幅图像的，例如平均、减少
G06T5-30 ..侵蚀或扩张，如变薄

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top