[发明专利]基于改进Transformer模型的手语视频生成方法在审
申请号: | 202210821012.5 | 申请日: | 2022-07-13 |
公开(公告)号: | CN115393948A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 崔振超;陈子昂;齐静 | 申请(专利权)人: | 河北大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06N3/04;G06N3/08 |
代理公司: | 石家庄国域专利商标事务所有限公司 13112 | 代理人: | 胡澎 |
地址: | 071002 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 transformer 模型 手语 视频 生成 方法 | ||
1.一种基于改进Transformer模型的手语视频生成方法,其特征是,包括以下步骤:
a、采用openpose提取目标手语视频中的目标手语姿态的二维骨骼序列,截取上身的8个关节点以及左右手的各21个关节点,进行模型训练;将表示手语姿态的二维数据提升为三维数据,通过观察三维数据的分布,对异常和错误关节处的骨架信息进行数据清洗后,形成目标手语姿态序列;
b、把口语句子和目标手语姿态序列输入到编码器-解码器模型中,对编码器-解码器模型进行训练,以建立口语句子与目标手语姿态序列二者之间的映射关系;映射关系建立后即构成训练好的手语视频生成网络模型;
c、利用训练好的手语视频生成网络模型对输入的口语句子进行处理,其输出即为每一时刻所对应手语的概率分布,最终实现端到端地将口语句子翻译成以人体骨骼与图形格式表达的个性化的手语视频。
2.根据权利要求1所述的手语视频生成方法,其特征是,所述编码器-解码器模型包括带手语长度预测的文本特征编码器以及结合富语义嵌入层的金字塔半自回归解码器。
3.根据权利要求2所述的手语视频生成方法,其特征是,步骤b中,所述编码器-解码器模型的训练方式是,将口语句子输入到文本特征编码器中学习语义特征并传递给金字塔半自回归解码器,在编码器的最后一层添加卷积神经网络和softmax分类器,进行手语长度预测;把目标手语姿态序列输入到金字塔半自回归解码器中,用以提取时空特征,通过引入Relaxedmasked-attention机制,以半自回归方式解码目标手语序列;经模型训练,建立口语句子与手语动作间的映射关系。
4.根据权利要求3所述的手语视频生成方法,其特征是,步骤b中,时空特征的提取是将时间维度与空间位移上的信息编码到相同的空间中作为模型的输入;金字塔半自回归解码器对目标手语姿态序列进行分组,各组之间保持级联特性,每个组内并行生成目标帧;
将包含N个单词的口语句子表示为:S=(s1,...,sN);
目标手语姿态序列表示为:T=(t1,...,tM);
其中,si为口语句子中第i个单词,N为口语句子中的单词数量,ti为第i帧的手语姿态,M为视频帧数;
目标是拟合最大化条件概率P(T|S)的参数模型进行文本到手语姿态序列的翻译;
将相邻帧间的关节速度信息融入到骨骼序列的关节集合表示为:
其中,表示在第t帧时关节u的三维坐标信息表示在第t帧时关节u的速度信息,由第t帧和第t-1帧三维坐标信息相减得到。
目标手语姿态序列的长度为L,对P(L|S)进行单独建模,设定L的最大值为100。
5.根据权利要求4所述的手语视频生成方法,其特征是,所述文本特征编码器包括有多个结构相同但训练参数不同的层,每个层包括两个子层,分别是多头注意力机制和逐位置全连接的前馈网络;其中每个子层都使用残差连接(residual connection)和层标准化(layer normalization)确保梯度不会为0,缓解了梯度消失的出现,各子层的输出表示为:
其中,是由源口语句子S经过词嵌入层编码得到的特征向量;
词嵌入层使用两层全连接网络(FC)和ReLU激活函数ReLU,w1为第一层全连接网络的权重矩阵,b1为第一层全连接网络的偏置项,w2为第二层全连接网络的权重矩阵,b2为第二层全连接网络的偏置项,将权重矩阵与输入向量相乘再与偏置相加后,引入positionalencoding模块保持词序信息为:
其中,Sn表示句子中第n个单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北大学,未经河北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210821012.5/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法