[发明专利]一种基于混合深度学习模型的动态手势识别方法有效
申请号: | 201710120922.X | 申请日: | 2017-03-02 |
公开(公告)号: | CN106991372B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 深度 学习 模型 动态 手势 识别 方法 | ||
1.一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:
训练阶段:
1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;
1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;
1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;
1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;
1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;
1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;
测试阶段:
2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;
2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;
2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类。
2.如权利要求1所述的基于混合深度学习模型的动态手势识别方法,其特征在于,基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下:
首先定义了MVRBM相应的能量函数:
其中,V=[vij]是二进制可见层矩阵变量,对应20×64的手势时空二维表示,H=[hkl]是二进制隐藏层矩阵变量,对应提取出的手势时空特征,假设独立变量vij和hkl从{0,1}中取值;Θ={ω,B,C}为模型参数变量,权重ω=[wijkl]是连接二进制可见层矩阵变量V和隐藏层H的四阶张量参数,B=[bij]和C=[Ckl]分别是可见层和隐藏层的偏置矩阵;
为了减少自由参数的数量和节省计算复杂度,假定可见层单元和隐藏层单元的连接权值有如下关系:wijkl=xkiylj,通过两个新的矩阵X=[xki]∈RK×I和Y=[ylj]∈RL×J,可以把能量函数(1)改写为如下形式,
E(V,H;θ)=-tr(XTHYVT)-tr(VTB)-tr(HTC) (2)
其中,矩阵X和Y共同定义了二进制可见层矩阵变量V和隐含矩阵H的连接权,这样,Θ中的自由参数减少为I×K+K×L+L×J+J×I个,基于公式(2),V和H的联合分布概率为:
其中,Θ表示所有的模型参数X,Y,B和C,归一化常量Z(Θ)定义为:
Z(Θ)=∑X∈x,Y∈yexp{-E(X,Y;Θ)} (4)
假定手势图像样本集D={E1,...,EN},根据公式(3)样本集D的对数似然函数为:
MVRBM的具体训练过程如下:
(1.1)、定义矩阵型训练手势图像样本集D={E1,...,EN},最大迭代次数Z,动量系数γ,学习率α,权值正则项β,每组训练样本数,CD算法K步;
(1.2)、随机初始化模型参数变量X和Y,令偏置变量B=C=0,随机梯度ΔX=ΔY=ΔB=ΔC=0;
(1.3)、迭代步数z=1→Z进行;
(1.4)、随机将D={E1,...,EN}分成M组D1...DM,大小为b;
(1.5)、组m=1→M进行;
(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V(0)=v∈Dm;
(1.7)、k=0→K-1进行;
(1.8)根据公式(5)对手势图像样本H(k)进行采样
(1.9)根据公式(6)对手势图像样本V(k)进行采样
(1.10)根据公式(7)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710120922.X/1.html,转载请声明来源钻瓜专利网。