[发明专利]一种基于混合深度学习模型的动态手势识别方法有效

申请号：	201710120922.X	申请日：	2017-03-02
公开（公告）号：	CN106991372B	公开（公告）日：	2020-08-28
发明（设计）人：	施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于混合深度学习模型的动态手势识别方法包括：训练阶段，首先基于构成手势视频的图像集训练CNN，然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征；对待识别的每个手势视频序列，将CNN学习到的各帧级特征按时间顺序组织成矩阵；把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征；引入具有判别性的NN；即把MVRBM看作NN模型参数的预训练过程，把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值，并通过反向传播算法微调NN权值和偏置；测试阶段，同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接，输入前述训练好的NN进行手势识。采用本发明的技术方案，实现对3D动态手势视频序列的有效时空表示。
搜索关键词：	一种基于混合深度学习模型动态手势识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于混合深度学习模型的动态手势识别方法，其特征在于，包括以下步骤：训练阶段：1.1、针对输入的动态手势视频，首先基于Canny边缘检测进行去光照预处理；1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型；1.3、定义训练数据中每个手势动作视频用T帧描述，接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中，提取视频序列每一帧的特征；1.4、假定基于CNN提取的每一帧图像的特征为M维，对每个待识别的手势动作视频单元，按时间顺序逐行顺次排列这些图像帧特征，这样，一个视频动作的特征可以表示为T行M列的矩阵形式；1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练，通过不断的调整参数训练出最优的MVRBM模型；1.6、此时所有的预训练阶段已经结束，接下来建模NNet，NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度，MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值，MVRBM的输入向量化作为NNet的输入，然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小；测试阶段：2.1、同样地，与训练阶段(1.1)(1.2)(1.3)步骤一样，对测试数据进行处理，即对每个T帧的视频序列，提取每一帧M维的特征；2.2、依次串联每个视频序列中的所有帧的特征，得到维度为T*M大小的向量，这样，每个视频数据都可以用T*M大小的向量特征表示；2.3、将(2.2)中向量作为训练好的NNet网络的输入，进行测试及分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710120922.X/，转载请声明来源钻瓜专利网。

上一篇：一种基于中医五行人体质分类的面型采集与分析系统
下一篇：一种基于深度学习和图论的拷贝视频检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合深度学习模型的动态手势识别方法有效

专利文献下载