[发明专利]一种手语识别方法有效
申请号: | 201910426216.7 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110175551B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 张淑军;张群;李辉;王传旭 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/764 |
代理公司: | 青岛联智专利商标事务所有限公司 37101 | 代理人: | 邵新华 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手语 识别 方法 | ||
1.一种手语识别方法,其特征在于,包括:
对手语视频进行切帧;
将手语视频所对应的图像帧按照时序等分成n个片段;
从每一个片段中随机选取连续的m个图像帧,形成视频序列X=(x1,x2,···,xn);其中,xi表示第i个片段中的m个图像帧;
对所述视频序列X进行基于频域变换的图像处理,提取出相位信息;
将所述相位信息和视频序列X分别送入C3D卷积神经网络进行一次卷积,并对卷积后得到的特征进行加权融合,形成融合后的特征信息;
将所述融合后的特征信息送入3D ResNets深度卷积神经网络进行二次卷积和池化;
根据二次卷积之后生成的特征矩阵Fn,求取Fn的互协方差矩阵Qn;
对互协方差矩阵Qn进行池化降维,形成降维后的特征向量;
将t帧时刻降维后的特征向量表示为计算t+1帧时刻降维后的特征向量的重要性βt+1:
其中,fp为感知机算法中的预测函数;φ(xt+1)表示在所述视频序列X下,截止到t+1帧为止的降维后的特征向量;
计算t+1帧时刻的特征向量的权重ω,所述权重ω满足以下计算公式:
计算每一帧时刻的特征向量的权重,选取权重最大的特征向量作为目标特征向量;
将所述目标特征向量送入3D ResNets深度卷积神经网络的全连接层,输出分类结果。
2.根据权利要求1所述的手语识别方法,其特征在于,在形成所述视频序列X的过程中,具体包括:
将每一个手语视频切为N帧,N≥34,并将前f帧和后f帧作为冗余帧进行剔除,保留中间的关键帧,所述f≤5;
将所述中间的关键帧按照时序等分成三个片段;
从每一个片段中随机选取连续的至少8个图像帧,形成所述的视频序列X。
3.根据权利要求1所述的手语识别方法,其特征在于,在基于频域变换提取相位信息的过程中,采用Gabor变换提取图像帧的相位信息。
4.根据权利要求1至3中任一项所述的手语识别方法,其特征在于,在所述3D ResNets深度卷积神经网络中,其3D卷积层使用不同尺度的卷积核对不同时序位置的时序信息进行二次卷积,然后对每一个时序位置的卷积特征进行时间维度上的特征聚合,形成二次卷积之后的特征矩阵,送入池化层,进而利用自适应学习池化算法进行降维,以筛选出目标特征向量。
5.根据权利要求4所述的手语识别方法,其特征在于,所述3D ResNets深度卷积神经网络包括8个3D卷积层和8个池化层,所述8个3D卷积层和8个池化层相互交错;其中,
每一个3D卷积层的卷积核均为3×3×3,卷积核的数量由64到512依次递增,在卷积层之后,对两路信息进行卷积层的特征融合;
每一个池化层均使用所述自适应学习池化算法进行降维,其中第二个池化层、第六个池化层、第七个池化层以及第八个池化层均使用2×2×2的窗口同时对时间维度和空间维度进行下采样,其他池化层使用1×2×2的窗口,只在空间维度上进行下采样。
6.根据权利要求5所述的手语识别方法,其特征在于,在每一个3D卷积层之后分别加入BN层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910426216.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:页码识别容错编码的方法
- 下一篇:基于深度耦合自编码的人脸画像合成方法