[发明专利]一种基于混合深度学习模型的动态手势识别方法有效

申请号：	201710120922.X	申请日：	2017-03-02
公开（公告）号：	CN106991372B	公开（公告）日：	2020-08-28
发明（设计）人：	施云惠;淮华瑞;李敬华;王立春;孔德慧;尹宝才	申请（专利权）人：	北京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合深度学习模型动态手势识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混合深度学习模型的动态手势识别方法，其特征在于，包括以下步骤：

训练阶段：

1.1、针对输入的动态手势视频，首先基于Canny边缘检测进行去光照预处理；

1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型；

1.3、定义训练数据中每个手势动作视频用T帧描述，接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中，提取视频序列每一帧的特征；

1.4、假定基于CNN提取的每一帧图像的特征为M维，对每个待识别的手势动作视频单元，按时间顺序逐行顺次排列这些图像帧特征，这样，一个视频动作的特征可以表示为T行M列的矩阵形式；

1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练，通过不断的调整参数训练出最优的MVRBM模型；

1.6、此时所有的预训练阶段已经结束，接下来建模NNet，NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度，MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值，MVRBM的输入向量化作为NNet的输入，然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小；

测试阶段：

2.1、同样地，与训练阶段(1.1)(1.2)(1.3)步骤一样，对测试数据进行处理，即对每个T帧的视频序列，提取每一帧M维的特征；

2.2、依次串联每个视频序列中的所有帧的特征，得到维度为T*M大小的向量，这样，每个视频数据都可以用T*M大小的向量特征表示；

2.3、将(2.2)中向量作为训练好的NNet网络的输入，进行测试及分类。

2.如权利要求1所述的基于混合深度学习模型的动态手势识别方法，其特征在于，基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下：

首先定义了MVRBM相应的能量函数：

其中，V＝[v_ij]是二进制可见层矩阵变量，对应20×64的手势时空二维表示，H＝[h_kl]是二进制隐藏层矩阵变量，对应提取出的手势时空特征，假设独立变量v_ij和h_kl从{0，1}中取值；Θ＝{ω，B，C}为模型参数变量，权重ω＝[w_ijkl]是连接二进制可见层矩阵变量V和隐藏层H的四阶张量参数，B＝[b_ij]和C＝[C_kl]分别是可见层和隐藏层的偏置矩阵；

为了减少自由参数的数量和节省计算复杂度，假定可见层单元和隐藏层单元的连接权值有如下关系：w_ijkl＝x_kiy_lj，通过两个新的矩阵X＝[x_ki]∈R^K×I和Y＝[y_lj]∈R^L×J，可以把能量函数(1)改写为如下形式，

E(V，H；θ)＝-tr(X^THYV^T)-tr(V^TB)-tr(H^TC) (2)

其中，矩阵X和Y共同定义了二进制可见层矩阵变量V和隐含矩阵H的连接权，这样，Θ中的自由参数减少为I×K+K×L+L×J+J×I个，基于公式(2)，V和H的联合分布概率为：

其中，Θ表示所有的模型参数X，Y，B和C，归一化常量Z(Θ)定义为：

Z(Θ)＝∑_{X∈x，Y∈y}exp{-E(X，Y；Θ)} (4)

假定手势图像样本集D＝{E₁，...，E_N}，根据公式(3)样本集D的对数似然函数为：

MVRBM的具体训练过程如下：

(1.1)、定义矩阵型训练手势图像样本集D＝{E₁，...，E_N}，最大迭代次数Z，动量系数γ，学习率α，权值正则项β，每组训练样本数，CD算法K步；

(1.2)、随机初始化模型参数变量X和Y，令偏置变量B＝C＝0，随机梯度ΔX＝ΔY＝ΔB＝ΔC＝0；

(1.3)、迭代步数z＝1→Z进行；

(1.4)、随机将D＝{E₁，...，E_N}分成M组D₁...D_M，大小为b；

(1.5)、组m＝1→M进行；