[发明专利]一种人体骨架动作的识别方法有效

申请号：	202010282867.6	申请日：	2020-04-13
公开（公告）号：	CN111476181B	公开（公告）日：	2022-03-04
发明（设计）人：	于明;李杰;郝小可;郭迎春;朱叶;刘依;阎刚	申请（专利权）人：	河北工业大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06V10/774;G06V10/764;G06V10/80;G06K9/62;G06V10/82;G06N3/04;G06V10/62
代理公司：	天津翰林知识产权代理事务所(普通合伙) 12210	代理人：	胡安朋
地址：	300130 天津市红桥区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人体骨架动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种人体骨架动作的识别方法，其特征在于：是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法，具体步骤如下：

第一步，生成多角度骨架特征的训练数据：

所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据，

首先对于一组输入的人体骨架动作的视频序列，构建人体骨架的无向连通图，其中关节点作为图的顶点，关节点之间的自然连接作为图的边，定义骨架图G＝{V,E}，其中，V是n个关节点的集合，E是m个骨架边的集合，由如下公式(1)得到骨架图的邻接矩阵A_k∈{0,1}^n×n，

再利用其关节点的坐标数据，通过在3D空间中旋转来获得任意视点的关节序列，使用旋转矩阵将给定视点的关节点坐标数据X转换为另一个视点的关节点坐标数据，即为生成的关节信息流数据其计算公式(2)如下所示，

公式(2)中，R_T为旋转矩阵，

根据生成的关节信息流数据进一步生成骨骼信息流数据和运动信息流数据具体方法如下：

计算从骨骼边源关节点的三维坐标V₁＝(X₁,Y₁,Z₁)指向目标关节点的三维坐标V₂＝(X₂,Y₂,Z₂)的向量，得到骨骼边过程如下公式(3)所示，

公式(3)中，X₁,Y₁,Z₁为V₁的三维坐标值，X₂,Y₂,Z₂为V₂的三维坐标值，

所有骨骼边的集合即为骨骼信息流数据

由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标V_t＝(X_t,Y_t,Z_t)，前一帧的三维坐标V_t-1＝(X_t-1,Y_t-1,Z_t-1)和后一帧的三维坐标V_t+1＝(X_t+1,Y_t+1,Z_t+1)，计算对应坐标差的向量，得到运动边过程如下公式(4)所示，

所有运动边的集合即为运动信息流数据

至此生成多角度骨架特征的训练数据；

第二步，在空间域提取空间特征信息X_sout：

将上述第一步所得到关节信息流数据骨骼信息流数据和运动信息流数据三种多角度骨架特征信息的训练数据，同时馈送到空间图卷积模块中进行训练，具体操作步骤如下：

第(2.1)步，进行图注意力模块操作，获得空间注意力M_k：

根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值e_ij，计算公式(5)如下所示，

e_ij＝LeakyReLU(X_in W₁)W₂ (5),

公式(5)中，X_in为关节信息流数据骨骼信息流数据或运动信息流数据三种信息流数据的训练数据中的任意一种，W₁是特征维度上线性图层的参数，W₂是时间维度上线性图层的参数，LeakyReLU是一个激活函数，

进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值α_ij，如下公式(6)所示，

公式(6)中，N_i为关节点i的邻居节点的集合，e_ik为关节点i与集合N_i中所有任一关节点的图注意力值，k为集合N_i中的任一关节点的索引，

相对图注意力值α_ij的矩阵为空间注意力M_k；

第(2.2)步，提取空间特征信息X_sout：

将关节信息流数据骨骼信息流数据和运动信息流数据分别输入到每个信息流的空间图卷积模块中，其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略，即以人体所有关节点的坐标平均值作为人体骨架的重心，采用相邻节点的一阶邻域，比根节点距离重心更近的节点作为向心点，比根节点距离重心更远的节点作为离心点，进行空间图卷积模块操作提取空间特征信息X_sout，用如下所示公式(7)计算，

公式(7)中，X_sout为关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息或运动信息流数据的空间特征信息三种信息流数据的空间特征信息中的任意一种，K为空间维度的卷积核大小，使用上述的分区策略，K设置为3，为如下公式(8)所示的归一化后的邻接矩阵，W_k为特征信息的重要性，M_k为一个N×N的相对图注意力值的矩阵，表示每条边的权重值，*为哈达玛积，

公式(8)中，A_k为一个N×N的邻接矩阵，Λ_k为一个对角矩阵，

对角元素的值为其计算方法如下公式(9)所示，

公式(9)中，关节点j为关节点i所有相连接的任一关节点，为邻接矩阵A_k中关节点i的对应值；

由此完成在空间域提取空间特征信息X_sout；

第三步，在时间域提取时间特征信息X_tout：

第(3.1)步，进行时间注意力模块操作，获得时间注意力M_t：

调整上述第二步提取的空间特征信息X_sout的各帧之间的不同重要性，用如下所示公式(10)计算获得时间注意力值T_att，

公式(10)中，S_p为在第p帧经过空间图卷积模块后提取的空间特征信息，S_q为在第q帧经过空间图卷积模块后提取的空间特征信息，Z(S)为用于正则化的函数，g(·)为一个一元函数计算S_q的表示形式，成对函数f(S_p,S_q)定义了各帧之间的相关关系，其计算方法如下公式(11)所示，

公式(11)中，θ(·)和φ(·)为两个特征嵌入函数，θ(·)由如下公式(12)得到，φ(·)由如下公式(13)得到，T表示转置操作，

θ(S_p)＝W_θS_p (12),

公式(12)中，W_θ是可学习的参数，在网络训练时动态变化，

φ(S_q)＝W_φS_q (13),

公式(13)中，W_φ是可学习的参数，在网络训练时动态变化，

时间注意力值T_att的矩阵为时间注意力M_t；

第(3.2)步，提取时间特征信息X_tout：

沿着时间维度，将关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息和运动信息流数据的空间特征信息分别输入到每个信息流的时间卷积模块中，进行时间卷积模块操作提取时间特征信息X_tout，用如下所示公式(14)计算，

X_tout＝M_t X_sout W_o (14),

公式(14)中，X_tout为关节信息流数据的时间特征信息骨骼信息流数据的时间特征信息和运动信息流数据的时间特征信息三种信息流数据的时间特征信息中的任意一种，W_o为一个能够学习的矩阵参数，

由此完成在时间域提取时间特征信息X_tout；

第四步，在残差模块提取残差特征信息F(X_tout)，进一步获得最终的特征信息X_out：

将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起，称为图卷积网络，上述第二步中的空间注意力和第三步的时间注意力组合在一起，称为时空注意力，上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起，称为一个时空卷积模块，整体网络框架共有10个这样的时空卷积模块，其中第一个时空卷积模块的作用为批处理归一化，接下来的三个时空卷积模块的输出通道分别为64通道，再接下来的三个时空卷积模块的输出通道为128通道，最后三个时空卷积模块的输出通道为256通道，其中每个时空卷积模块都附有一个残差模块，保留之前的信息，增强重要的信息，在残差模块中，添加了改进的关节之间的共现特征的学习算法，该残差模块共五个卷积分支和一个上采样层，上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作，由此得到残差模块提取的残差特征信息F(X_tout)，进一步用如下所示公式(15)计算最终特征信息X_out，

X_out＝X_tout+F(X_tout) (15),

公式(15)中，X_out为关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的最终特征信息中的任意一种，F(X_tout)为关节信息流数据的残差特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的残差特征信息中的任意一种，

由此完成在残差模块提取残差特征信息F(X_tout)，进一步获得最终的特征信息X_out；

第五步，三流动态融合后的预测类标签

将上述第四步获得的关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息分别输入到每个信息流的softmax层，相应得到关节信息流的预测概率值为骨骼信息流的预测概率值为运动信息流的预测概率值为将关节信息流的预测概率值骨骼信息流的预测概率值和运动信息流的预测概率值进行动态地加权融合，得到三流动态融合后的预测类标签如下公式(16)所示，

公式(16)中，W_j为关节信息流的动态融合变化的权重值，W_b为骨骼信息流的动态融合变化的权重值，W_m为运动信息流的动态融合变化的权重值，

至此，由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法；

第六步，结合时空注意力与图卷积网络的人体骨架动作识别方法的训练：

经过上述五个步骤的操作之后，使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示，

公式(17)中，Y为待测试动作真实标签，

通过随机梯度下降算法优化网络的参数，使交叉熵损失函数L达到最小化，

由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练；

第七步，结合时空注意力与图卷积网络的人体骨架动作识别方法的度量：

计算上述第五步所获得的三流动态融合后的预测类标签与待测试动作真实标签Y之间的准确率，计算方法如下公式(18)所示，

公式(18)中，TP为动作被预测为相应类标签的数目，SP为各类标签的总数目；

由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量，

至此，完成人体骨架动作的识别。