[发明专利]一种基于深度学习的人体动作识别方法和系统有效
| 申请号: | 201910437636.5 | 申请日: | 2019-05-24 |
| 公开(公告)号: | CN110135386B | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 李方敏;刘新华;彭小兵;旷海兰;黄志坚;杨志邦;阳超 | 申请(专利权)人: | 长沙学院 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
| 地址: | 410003 湖南省长*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 人体 动作 识别 方法 系统 | ||
1.一种基于深度学习的人体动作识别方法,其特征在于,包括以下步骤:
S1、获取视频序列中的连续两帧图像;
S2、将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果;所述人体动作识别模型是通过以下步骤生成:
(1)获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
(2)对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数;
(3)将步骤(2)从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
(4)将步骤(3)中得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将步骤(3)中得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
(5)将步骤(4)得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
(6)根据步骤(5)输出的外观分类结果和运动分类结果分别计算其对应的损失值;其中针对外观分类结果而言,是使用以下公式计算其对应的损失值:
Loss(pt)=-αt(1-pt)γlog pt
其中pt表示外观分类结果,αt表示权重,其取值为1,γ为聚焦参数,其为1至5之间的任意自然数;
针对运动分类结果而言,其对应的损失值就是其交叉熵损失值;
(7)根据步骤(6)得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及步骤(4)中融合过程中使用的全连接层和多层感知机的参数;
(8)重复上述步骤(1)到(7),当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
2.根据权利要求1所述的人体动作识别方法,其特征在于,光流提取方法是采用TV-L1方法。
3.根据权利要求2所述的人体动作识别方法,其特征在于,步骤(3)中的空间流残差网络模型和时间流残差网络模型都被在ImageNet数据集上预训练过的残差网络进行过初始化;
空间流残差网络模型和时间流残差网络模型的基础网络采取ResNet网络,其网络层数是34层、50层、或101层;
时间流残差网络模型和空间流残差网络模型的最后一层使用高随机失活率为P的随机失活层,P为0.5、0.7、或0.8。
4.根据权利要求3所述的人体动作识别方法,其特征在于,
针对外观特征融合而言,步骤(4)首先将外观特征集合中的所有外观特征逐一通过与空间流残差网络模型的输出相连的全连接层分别映射为一个固定长度V的特征向量,然后将所有长度为V的特征向量进行级联融合,随后将级联后的特征输入到多层感知机中聚合,从而得到融合的外观特征,多层感知机层数C和每层隐含节点数为Ci,其中C为1,Ci为512,V等于256;
针对运动特征融合而言,步骤(4)就是按照平均方式对运动特征集合中的所有运动特征进行聚合,从而得到融合的运动特征。
5.根据权利要求4所述的人体动作识别方法,其特征在于,步骤(8)中采用的融合方式为加权融合,外观分类结果对应的空间流残差网络模型和运动分类结果对应的时间流残差网络模型之间的融合比例为1:1、1:1.1、1:1.2、或1:1.5。
6.一种基于深度学习的人体动作识别系统,其特征在于,包括:
第一模块,用于获取视频序列中的连续两帧图像;
第二模块,用于将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果;所述人体动作识别模型是通过以下模块生成:
第三模块,用于获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
第四模块,用于对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数;
第五模块,用于将第四模块从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
第六模块,用于将第五模块得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将第五模块得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
第七模块,用于将第六模块得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
第八模块,用于根据第七模块输出的外观分类结果和运动分类结果分别计算其对应的损失值;其中针对外观分类结果而言,是使用以下公式计算其对应的损失值:
Loss(pt)=-αt(1-pt)γlog pt
其中pt表示外观分类结果,αt表示权重,其取值为1,γ为聚焦参数,其为1至5之间的任意自然数;
针对运动分类结果而言,其对应的损失值就是其交叉熵损失值;
第九模块,用于根据第八模块得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及第六模块融合过程中使用的全连接层和多层感知机的参数;
第十模块,用于重复上述第三模块到第九模块,当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙学院,未经长沙学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910437636.5/1.html,转载请声明来源钻瓜专利网。





