[发明专利]一种基于时空注意力机制的手语识别方法有效
| 申请号: | 201911023322.7 | 申请日: | 2019-10-25 |
| 公开(公告)号: | CN111091045B | 公开(公告)日: | 2022-08-23 |
| 发明(设计)人: | 罗元;李丹;张毅;汪杰;陈顺 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/77;G06V10/774;G06V10/82;G06V10/764;G06V10/46;G06N3/04 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时空 注意力 机制 手语 识别 方法 | ||
本发明公开了一种基于时空注意力机制的手语识别方法,首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中,使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征,同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后,生成的特征表示经过Softmax分类器,以向量的形式输出分类类别。本发明能够降低冗余信息对识别的干扰,提高识别准确率。
技术领域
本发明属于图像处理与模式识别领域,特别是一种基于时空注意力机制的手语识别方法。
背景技术
手语识别的目的是将手语翻译成文本或者语音进行输出,达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息,因此如何有效地提取手语中的时空特征是手语识别的研究重点。
传统的手语识别框架包括四个部分:预处理,手势检测,特征提取,分类。其中,特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征,同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法,耗费大量的时间,并且光照变化、个体差异等因素对人工特征的提取影响较大。
深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能,因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统,不仅可以实现从输入到输出的端到端手语词分类,还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能,不仅省去了人工设计手势特征等一系列繁琐的步骤,网络结构设计合理甚至还可以提取到比人工特征更有效的手势特征,从而提高手语识别系统的识别率。在动态手势识别中,最常采用的神经网络模型为卷积神经网络CNN和循环神经网络RNN。然而,一般的基于CNN-RNN的网络在空间特征提取的有效性上有所欠缺,并且不能突出时间上的差异性,因而提取的时空特征包含了许多冗余信息,时空关联性不强。
发明内容
针对现有技术的不足,提出了一种基于时空注意力机制的手语识别方法,通过在残差3D卷积神经网络引入空间注意力、在卷积LSTM中引入时间注意力,使得网络能够自动专注空间中的显著区域,为手语视频帧自动分配权重,从而提高手语识别准确率。
为了实现上述目的,本发明采用的技术方案是:一种基于时空注意力机制的手语识别方法,包括以下步骤:
S1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理。
S2构建残差3D CNN卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块。
S3构建卷积LSTM长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示。
S4经过Softmax分类器,输出手语分类类别。
进一步,所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。
进一步,所述残差3D卷积神经网络中具有4个残差块;每个残差块包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。
更进一步,所述下采样层采用最大值池化,所述上采样层采用双线性插值。卷积核大小均为3×3×3和1×1×1的卷积;网络中每一层卷积之后都是BN层和ReLU激活函数;BN层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用ReLU激活函数可以增强网络稀疏性,防止过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911023322.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种反馈散热方法与装置
- 下一篇:一种环保型人造石英石制造空心柱成型模具





