[发明专利]一种基于混合深度学习模型的动态手势识别方法有效
申请号: | 201710120922.X | 申请日: | 2017-03-02 |
公开(公告)号: | CN106991372B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 深度 学习 模型 动态 手势 识别 方法 | ||
本发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识。采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示。
技术领域
本发明属于计算机视觉与机器学习领域,具体地涉及一种基于混合深度学习模型的动态手势识别方法。
背景技术
手势识别在可视交流、人机交互、增强现实等领域有重要应用。不过由于手势的复杂多变性以及光照、个体变化等因素影响,手势识别研究仍是一个具有挑战性的问题。基于视觉的手势识别通常包括特征提取和分类器设计两个方面。常用分类器包括神经网络(NN)、隐马尔可夫模型(HMM)等。手势特征表示方法通常包括:手形、手部重心位置、矩特征、尺度不变特征变换(Scale-invariant feature transform,SIFT)特征,方向梯度直方图(Histogram of Oriented Gradient,HOG)特征等。但人工选取的特征通常需要先验知识,而且有不能自适应数据等局限性。近来,深度学习方法在图像特征提取及分类识别领域有很好的优势。深度学习的一个典型模型是受限玻尔兹曼机(Restricted BoltzmannMachine,RBM),它是面向向量数据输入输出的概率模型。对于2D,3D等高维数据,显然向量化的操作会破坏2D图像,3D视频等的内部结构,导致损失了结构中隐藏的交互信息,在传统基于向量变量的受限玻尔兹曼机研究基础上,齐光磊等针对图像等高维数据提出了基于矩阵变量的受限波尔兹曼机(Matrix Variable Restricted Boltzmann Machine,MVRBM),该模型能够更好地建模2D数据,不过RBM以及MVRBM模型都是无监督的。在深度学习领域,另一个广受关注的模型是卷积神经网络(Convolutional Neural Network,CNN),CNN已被成功应用于定位、检测以及识别分类等各图像分析与理解领域,也有方法基于CNN以及其变体3DCNN建模视频序列的时间轴进行视频分类,这是一个困难而复杂的任务,模型参数大、难以训练,并且要求训练数据多。
发明内容
本发明提供一种动态手势识别方法,该发明面向动态手势识别问题,利用CNN和MVRBM的优势,设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示,另一方面提升了传统NN的识别性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于混合深度学习模型的动态手势识别方法,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710120922.X/2.html,转载请声明来源钻瓜专利网。