[发明专利]一种基于多模态分层级信息融合的手语词识别方法有效
申请号: | 202110559367.7 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297955B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 王军;吕智成;申政文;李玉莲;潘在宇;鹿姝 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/80;G06V10/764;G06V10/82;G06V10/62;G06K9/62;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱沉雁 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态分 层级 信息 融合 语词 识别 方法 | ||
1.一种基于多模态分层级信息融合的手语词识别方法,其特征在于,按如下步骤进行:
步骤S1,使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集,所述多模态中文日常手语词数据集包括训练集和测试集,训练集和测试集中均包括彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据三种模态的视频数据,转入步骤S2;
步骤S2,对三种模态的视频数据集分别进行关键帧提取,并均匀采样至相同的帧数,作为双流I3D网络和DST-GCN网络的输入,同时转入步骤S3和步骤S4;
步骤S3,使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征,将两种模态数据的短期时空特征进行拼接,得到融合特征,并将其输入LSTM网络得到长期时空特征,将长期时空特征输入到SoftMax层得到第一分类评分,具体如下:
步骤S2中提取的关键帧的图像序列经过I3D网络中的卷积层、最大池化层和全局池化层处理后,得到一个具有固定通道的特征图,选取I3D的全局平均池化层的输出特征作为对应视频帧的特征图,将彩色流I3D网络和深度流I3D网络对应时刻的特征图进行拼接,表示为:
其中,ft为t时刻拼接后的特征图,为t时刻彩色流I3D网络的输出特征图,为t时刻深度流I3D网络的输出特征图;
将包含T张视频帧的融合特征序列输入到LSTM网络中,计算出每帧对应的最后一个隐藏层状态来作为这段视频帧所代表的高层时序特征ht,表示为:
ht=f(Uft+Wht-1+b)
其中,W和U为权重值,b为偏置,f表示抽象函数,LSTM中每个神经元的W、U、b都是共享的,且输出层神经元的数量为手语数据集中手语词类别数量,最终输出高层时序特征H=(h1,h2,…,hT);再输入到SoftMax层得到第一分类评分,假设类别标y∈{1,2,…,A},对于输入的特征ht,SoftMax对其预测的属于类别c的条件概率为:
其中为第c类的权重值;
通过这种方式对两种模态的特征信息进行拼接处理,得到融合特征,再将得到融合特征输入到LSTM网络中构建长期时空特征,将这两种模态的特征映射到相同的表征空间,增强了特征的表征能力,通过SoftMax层得到第一分类评分;
转入步骤S5;
步骤S4,使用DST-GCN网络提取骨骼节点视频数据的时空特征,经过全连接层输入到SoftMax层得到第二分类评分,具体如下:
使用Kinect V2采集人体骨骼节点视频,得到上半身N个骨骼点的空间坐标,进而构建出一个无向人体骨骼节点图G=(V,E),其中为V表示节点,E表示连接骨骼节点的边集,在手语演示中,演示者仅通过上肢运动表达语义,将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位,其中每个子图中的节点表示为:
QO={qo|o=1,2,3}表示三个局部身体部位的重心,rtj∈qo,rtj表示第t帧中的第j个关节点,第qoi表示从根节点到局部重心的距离;每帧内骨骼节点连接用ES={rtirtj|(i,j)∈H}表示,root表示根节点,centripetal表示向心节点,centrifugal表示离心节点,i和j表示节点的索引序号;
将骨骼节点视频的关键帧序列输入网络,通过批归一化层和卷积层学习点特征和图特征,将骨骼节点图的点特征与图特征共同输入到DST-GCN网络中进行时空特征提取;为了加强DST-GCN对时间关系的学习能力,设置一个用于图特征提取的图卷积层GCN和两个用于学习时序关系的时间卷积层TCN作为DST-GCN的基本单元,并且GCN位于两个TCN中间,充分从不同层级加强骨骼节点图序列的时间表征;
最后通过全局平均池化层输出每个骨骼节点图序列的特征向量,通过SoftMax层得到第二分类评分;
转入步骤S5;
步骤S5,将第一分类评分和第二分类评分进行融合,得到最终的手语词识别结果
具体如下:将第一分类评分分数和第二分类评分分数进行决策级融合,对于每个种类均取两个分类分数中得分最高的分数作为分类分数,得到最终的手语词识别结果;
假设双流I3D-LSTM网络输出的结果对于种类1预测的概率为p1,种类2预测的概率为p2,种类N预测的概率为p′n;DST-GCN网络输出的结果对种类1预测的概率为p′1,种类2预测的概率为p′2,种类N预测的概率为p′n,则最终融合分数为:
Pi=max(pi,p′i),i∈[1,N]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110559367.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置