[发明专利]一种基于混合深度学习模型的动态手势识别方法有效

专利信息
申请号: 201710120922.X 申请日: 2017-03-02
公开(公告)号: CN106991372B 公开(公告)日: 2020-08-28
发明(设计)人: 施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才 申请(专利权)人: 北京工业大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识。采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示。
搜索关键词: 一种 基于 混合 深度 学习 模型 动态 手势 识别 方法
【主权项】:
一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:训练阶段:1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;测试阶段:2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710120922.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top