[发明专利]一种基于混合深度学习模型的动态手势识别方法有效
申请号: | 201710120922.X | 申请日: | 2017-03-02 |
公开(公告)号: | CN106991372B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识。采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示。 | ||
搜索关键词: | 一种 基于 混合 深度 学习 模型 动态 手势 识别 方法 | ||
【主权项】:
一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:训练阶段:1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;测试阶段:2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710120922.X/,转载请声明来源钻瓜专利网。