[发明专利]一种基于深度残差网络的行为识别方法有效
| 申请号: | 201910499059.2 | 申请日: | 2019-06-11 |
| 公开(公告)号: | CN110378208B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 陈华华;查永亮;叶学义 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 网络 行为 识别 方法 | ||
本发明公开了一种基于深度残差网络的行为识别方法。本发明以深度残差网络分别构建空间网络和时间网络,包括训练阶段和测试阶段:在训练阶段,提取训练视频的原始帧和光流,分别送入空间网络和时间网络进行训练;在测试阶段,提取测试视频的原始帧和光流,分别送入训练得到的空间和时间网络模型,每个模型分别得到每个行为所属各分类的得分;再将两个模型的分类得分进行融合,通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度来增强对当前行为有效的特征,并抑制较小的特征,从而提高模型对输入数据的表达能力。本发明具有较高的行为识别准确率,特别是在一些复杂动作和较难识别动作中有较好的表现。
技术领域
本发明属于计算机技术领域,尤其是行为识别技术领域,涉及一种对视频人体行为进行识别的方法,特别是一种基于深度残差网络(Residual Neural Network,ResNet)的行为识别方法。
背景技术
视频行为识别是指使用一些算法使计算机去自动识别图像序列或视频中的动作。首先从图像序列和视频中提取有效的视觉特征信息,再用适当的方法去表示这些信息,最后构造一个分类模型来对行为进行学习并实现正确识别。
由于视频中连续帧的行为外观非常相似,因此视频行为识别模型需要对外观进行时间推理。在行为识别中,除了行为外观以外,还需要对复杂的时间关系建模。虽然卷积神经网络在基于图像识别的任务中取得了巨大成功,但是如何利用深层网络对视频的时间演化进行有效建模仍不清楚。
发明内容
本发明的目的就是提供一种基于深度残差网络的行为识别方法,以更好的表达特征,从而提高行为识别的准确率。
本发明方法将深度残差网络应用到行为识别中,包括训练阶段和测试阶段。
所述的训练阶段首先进行预处理:
选取待检测视频数据集,视频数据集包含训练数据集和测试数据集;将待训练视频等分为K个片段,表示为Sr={Sr1,Sr2,…,SrK},下角标r表示训练集,假设视频长度为A,则每个片段长度为A/K;图像尺寸均规范化为M×N,M和N分别表示图像的高度和宽度;
从每个片段中随机提取一帧图像,并用TV-L1算法(注:引用自Zach C,Pock T,Bischof H.A Duality Based Approach for Realtime TV-L1Optical Flow[J]//PatternRecognition,2007:214-223.)提取6个连续帧间的光流数据,光流数据分为x方向和y方向,提取结果表示为Tr={Tr1,Tr2,…,TrK},其中包含一帧图像Irk,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k∈{1,2,…,K}。
训练阶段的具体步骤是:
步骤(1).构建时空双流网络:所述的时空双流网络包含空间网络和时间网络,空间网络和时间网络都使用级联ResNet网络实现;所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910499059.2/2.html,转载请声明来源钻瓜专利网。





