[发明专利]一种基于时空注意力机制的手语识别方法有效

申请号：	201911023322.7	申请日：	2019-10-25
公开（公告）号：	CN111091045B	公开（公告）日：	2022-08-23
发明（设计）人：	罗元;李丹;张毅;汪杰;陈顺	申请（专利权）人：	重庆邮电大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06V10/77;G06V10/774;G06V10/82;G06V10/764;G06V10/46;G06N3/04
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	李金蓉
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时空注意力机制手语识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时空注意力机制的手语识别方法，其特征在于，包括以下步骤：

S1数据预处理，对手语视频进行采样，并对采样后的图片进行图像尺度归一化处理；

S2构建残差3D卷积神经网络，提取输入视频的短期的时空特征，在残差3D卷积神经网络中引入空间注意力模块；所述空间注意力模块为：

S21:输入的特征图x首先经过两层3D卷积网络得到特征图H_x：H_x＝x*W_h

其中，*表示三维卷积操作，W_h是一个3维张量，表示待学习的权重参数；

S22:H_x分别通过掩膜分支和残差分支被变换到两个不同的特征空间F_x和G_x；掩膜分支通过下采样和上采样处理使高低维度的特征更好地组合在一起，残差分支的目的是提取更深层次的时空特征；对两个特征空间进行组合变换，再经过归一化处理生成空间注意力图α_x：

其中，为哈达玛积，也就是逐元素相乘，σ表示Softmax激活函数，F_x和G_x分别是掩膜分支和残差分支的输出；

S23:注意力层输出为为了更好地利用前层的信息，最终的输出为：O_x＝x+S_x；

S3构建卷积长短时记忆网络，将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征，在卷积长短时记忆网络中引入时间注意力模块，生成视频帧的时间注意力权重，结合不同视频帧的时间注意力生成视频的特征表示；

S4经过Softmax分类器，输出手语分类类别。

2.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述数据预处理包括将每一个手语视频采样为32帧；帧数大于32的视频，将多余的帧数平均分配到首尾两端进行删除，保留中间的关键帧；而对于帧数小于32的视频为了保证数据的时序性，则重复最后一帧。

3.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述残差3D卷积神经网络中具有4个残差块；每个残差块包含六层3D卷积层，一层下采样层和一层上采样层，前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。

4.根据权利要求3所述一种基于时空注意力机制的手语识别方法，其特征在于：所述下采样层采用最大值池化，所述上采样层采用双线性插值。

5.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述两个分支其中掩膜分支需要经过下采样和上采样处理，残差分支经过四层3D卷积处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911023322.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载