[发明专利]一种基于动态时间规整与多核学习的动作识别方法有效

申请号：	201710032607.1	申请日：	2017-01-16
公开（公告）号：	CN106845386B	公开（公告）日：	2019-12-03
发明（设计）人：	郑慧诚;岑杰鹏;王敬	申请（专利权）人：	中山大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	44102 广州粤高专利商标代理有限公司	代理人：	林丽明<国际申请>=<国际公布>=<进入
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于动态时间规整多核学习动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于动态时间规整与多核学习的动作识别方法，其特征在于：包括以下步骤：

一、建立BoW表示

S11.记动作类别总数为C，令第j类动作的训练动作样本集为其中T_i^j表示第j类动作的第i个训练动作样本，i＝1,2,..,N_j,N_j表示第j类动作的训练动作样本数；定义包含C类训练动作样本的集合其中为训练动作样本总数；

S12.对训练动作样本T_i的每帧图像提取底层描述子，基于提取的底层描述子建立起训练动作样本T_i的自相似矩阵SSM，然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取；训练动作样本T_i各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Q_i表示训练动作样本T_i的帧数目，表示第k帧的Z个SSM描述子；

S13.对各个训练动作样本进行步骤S12的操作；

S14.从所有训练动作样本的Z个时间尺度下的描述子中随机选取e个SSM描述子，然后利用k-means算法将其聚类成p个簇，p<<e，得到包含有p个词汇的码本；

S15.计算训练动作样本T_i中各个SSM描述子与码本各个词汇之间的距离，然后将训练动作样本T_i中的各个SSM描述子分别与距离最接近的词汇关联起来，即利用码本对SSM描述子进行量化，码本各个词汇关联的SSM描述子的数量形成一个直方图表示，即为训练动作样本T_i的BoW表示；

S16.对各个训练动作样本进行步骤S15的操作获取各个训练动作样本的BoW表示；

二、建立动作平均模板表示

S21.初始化j的值为1；

S22.为第j类动作构建一个初始的空的平均模板初始化i的值为1；

S23.若i＝1，令其中为训练动作样本T_i^j的SSM描述子序列，跳到步骤S26；否则，利用动态时间规整方法计算平均模板与描述子序列的累加距离：

其中c_k＝(i_k,j_k)表示第k对帧，表示平均模板中的第i_k帧与描述子序列中的第j_k帧对齐，d(c_k)表示第k对帧的SSM描述子的欧式距离，ω(c_k)表示加权系数且ω(c_k)＝i_k-i_k-1+j_k-j_k-1；

S24.基于公式(1)，由最后一对对齐帧回溯至最早一对对齐帧，获得最优路径p＝{c′_l}，其中c′_l＝(i′_l,j′_l)，表示平均模板中的第i′_l帧与描述子序列中的第j′_l帧对齐，对应的描述子映射集为

S25.利用平均模板描述子序列计算新的平均模板

其中，表示新的平均模板的第l帧的描述子，表示平均模板第i′_l帧的描述子，表示描述子序列第j′_l帧的描述子，L表示最优路径上对齐帧的数目，β＝1/i；

S26.令i＝i+1然后执行步骤S23～S25，直至i＞N_j，得到第j类动作的最终的平均模板R_j；

S27.令j＝j+1然后执行步骤S22～S26，直至j＞C；

S28.通过步骤S21～S27的计算，获得C个平均模板组成的平均模板集合R＝{R₁,R₂...,R_C}，其中R_j表示第j类动作的最终的平均模板；

S29.对平均模板和训练动作样本进行量化：

S291.从所有训练动作样本的描述子中随机选取e′个SSM描述子，然后利用k-means算法将其聚类成p′个簇，p′＜＜e′，得到包含有p′个词汇的码本；

S292.分别计算训练动作样本T_i的描述子序列中每帧的SSM描述子与步骤S291中获得的码本的各个词汇之间的距离，将每帧的SSM描述子分别与距离最接近的词汇关联起来，得到训练动作样本T_i量化的描述子序列；

S293.对各个训练动作样本进行步骤S292的操作；通过步骤S292中同样的方式对各个平均模板进行量化，可得到各个平均模板量化的描述子序列；

S210.对训练动作样本T_i的量化描述子序列利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离，训练动作样本T_i的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量，该C维向量为训练动作样本T_i的平均模板表示；对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示；

S211.为Z个不同时间尺度分别建立平均模板表示，具体地，针对每一个时间尺度，在步骤S21～S210中利用该时间尺度的描述子进行该时间尺度下的动作平均模板的构建、码本的构建以及平均模板表示的构建；将某个训练动作样本在Z个时间尺度下分别获得的平均模板表示拼接成一个向量，作为该训练动作样本最终的平均模板表示；

三、结合BoW表示和平均模板表示的动作表示

S31.利用增广特征多核学习(AFMKL)结合BoW表示和平均模板表示，增广特征多核学习的决策函数如下：

其中x表示BoW表示，x′表示平均模板表示，ω和β表示学习权重，表示对BoW表示的非线性映射函数，φ表示对平均模板表示的非线性映射函数，b为偏置项，d₁和d₂为对BoW表示、平均模板表示进行加权的系数；

S32.通过最小化结构风险函数，建立以下的最优化问题：

d_m≥0,m＝1,2.

其中

s.t.表示服从后面的约束，d＝[d₁,d₂]^T表示加权系数向量，表示二次正则化项，x_i表示第i个训练动作样本的BoW表示，x′_i表示第i个训练动作样本的平均模板表示，y_i∈{+1,-1}表示第i个训练动作样本的正负标签，ξ＝(ξ₁,ξ₂,...,ξ_N)^T表示松弛变量向量，ξ_i表示第i个训练动作样本的松弛变量，λ表示惩罚参数，N为训练动作样本的数目；

S33.为式(3)中每个不等式约束引入拉格朗日乘子α_i，并记α＝(α₁,α₂,...,α_N)^T为对偶变量，将式(3)中的优化问题转换为其对偶形式：

0≤α_i≤λ,i＝1,...,N.

其中，α_i和α_j分别表示对第i个训练动作样本、第j个训练动作样本构成的不等式约束所引入的拉格朗日乘子；为核函数；

S34.对公式(2)在训练动作样本集上进行优化求解：

S341.固定加权系数向量d，(4)中的对偶问题转换成关于对偶变量α的优化问题，此时利用标准的SVM的求解方法对对偶变量α进行求解；

S342.固定对偶变量α，利用梯度下降的方法对加权系数向量d进行求解；

S343.迭代地进行S341和S342，直至式(2)收敛或达到最大迭代数；

S35.利用步骤S34确定加权系数向量d和对偶变量α后，得到最终的决策函数：

四、对测试动作样本进行动作识别

S41.利用第一部分的内容求取测试动作样本的BoW表示；

S42.利用第二部分的内容求取测试动作样本的平均模板表示；

S43.将测试动作样本的BoW表示、平均模板表示输入至最终的决策函数中，决策函数输出分类结果。