[发明专利]一种基于深度残差网络的行为识别方法有效
| 申请号: | 201910499059.2 | 申请日: | 2019-06-11 |
| 公开(公告)号: | CN110378208B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 陈华华;查永亮;叶学义 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于深度残差网络的行为识别方法。本发明以深度残差网络分别构建空间网络和时间网络,包括训练阶段和测试阶段:在训练阶段,提取训练视频的原始帧和光流,分别送入空间网络和时间网络进行训练;在测试阶段,提取测试视频的原始帧和光流,分别送入训练得到的空间和时间网络模型,每个模型分别得到每个行为所属各分类的得分;再将两个模型的分类得分进行融合,通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度来增强对当前行为有效的特征,并抑制较小的特征,从而提高模型对输入数据的表达能力。本发明具有较高的行为识别准确率,特别是在一些复杂动作和较难识别动作中有较好的表现。 | ||
| 搜索关键词: | 一种 基于 深度 网络 行为 识别 方法 | ||
【主权项】:
1.一种基于深度残差网络的行为识别方法,包括训练阶段和测试阶段,其特征在于:所述的训练阶段首先进行预处理:选取待检测视频数据集,视频数据集包含训练数据集和测试数据集;将待训练视频等分为K个片段,表示为Sr={Sr1,Sr2,…,SrK},下角标r表示训练集,假设视频长度为A,则每个片段长度为A/K;图像尺寸均规范化为M×N,M和N分别表示图像的高度和宽度;从每个片段中随机提取一帧图像,并用TV‑L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,提取结果表示为Tr={Tr1,Tr2,…,TrK},其中
包含一帧图像Irk,通道数为3,以及x方向的光流数据
和y方向的光流数据
每个方向的通道数均为5,k∈{1,2,…,K};训练阶段的具体步骤是:步骤(1).构建时空双流网络:所述的时空双流网络包含空间网络和时间网络,空间网络和时间网络都使用级联ResNet网络实现;所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器;所述的残差网络单元包含以下结构:第一层包含1×1卷积核,该层参数为通道数channel为H,步长stride为Q,补零宽度zero‑padding为0,BN处理和Relu处理;所述的BN处理为批归一化处理,Relu处理为改进型线性单元处理;第二层包含3×3卷积核,该层参数为通道数channel为I,步长stride为1,补零宽度zero‑padding为1,BN处理和Relu处理;第三层包含1×1卷积核,该层参数为通道数channel为J,步长stride为1,补零宽度zero‑padding为0,BN处理,输出J个通道的二维矩阵Ui,i=1,2,…,J;第三层后接平均池化层,经过平均池化层后,经过两个前后级联的通道数为J/16的全连接层,输出再经过通道数为J的全连接层,后接Sigmoid激活函数层,输出是长度为J的实数数列s;将Ui和s一起输入缩放层得到输出Vi,缩放层运算为Vi=si⊙Ui,表示si与Ui中的每个元素相乘,si是数列s的第i个元素,i=1,2,…,J;输出J个通道的Vi,i=1,2,…,J;最后将缩放层的输出和第一层的输入相加,采用Relu处理后输出,输出通道数为J;如果第一层输入的通道数不足J,就将缺少的通道数用0填充;空间网络的学习步骤如下:(a)输入图像尺寸为224×224×3,经过一个卷积核大小为7×7的卷积层,该层参数为通道数channel为64,步长stride为2,补零宽度zero‑padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;(b)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;(c)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;(d)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;(e)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;(f)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;(g)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;(h)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;(i)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;(j)经过级联的平均池化层和全连接层,池化层的大小7×7,步长stide为1,输出尺寸为1×1×2048,全连接层输出通道数为C,输出尺寸为1×1×C,使用Softmax分类器得出分类结果;时间网络的学习步骤如下:(k)输入光流图像尺寸为224×224×10,经过一个7×7的卷积核的卷积,该层参数为通道数channel为64,步长stride为2,补零宽度zero‑padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;(l)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;(m)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;(n)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;(o)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;(p)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;(q)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;(r)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;(s)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;(t)经过级联的平均池化层和全连接层,池化层的大小7×7,步长stride为1,输出尺寸为1×1×2048,经全连接层输出尺寸为1×1×C,使用Softmax分类器得出分类结果;步骤(2).将分段Tr={Tr1,Tr2,…,TrK}中Trk的图像Irk分别送入空间网络中进行迭代训练,k∈{1,2,…,K};批量大小设置为Nrip,r表示训练集,i表示空间网络以图像为输入,p表示批量大小设置,Nrip∈{4,5,6,7,8};设置学习率初始值为Lri,每隔Nri次迭代后更新学习率,使学习率降为原来的thri,当训练迭代Nrii次时,结束训练,得到空间网络的模型;训练完成后得到该片段属于每类动作的外观分类得分![]()
是由全连接层C个通道输出值组成的矢量,向量长度为C;将所有片段的分类得分送入均值函数
中,得到视频属于每个类别的最终外观得分
步骤(3).将分段Tr={Tr1,Tr2,…,TrK}中Trk的x方向光流数据
和y方向光流数据
一起组成10通道的数据送入时间网络中进行迭代训练,k∈{1,2,...,K};批量大小设置为Nrlp,r表示训练集,l表示空间网络以光流为输入,p表示批量大小设置,Nrlp∈{4,5,6,7,8};设置学习率初始值为Lrl,每隔Nrl次迭代后更新学习率,使学习率降为原来的thrl,当训练迭代Nrli次时,结束训练,得到时间网络的模型;训练完成后得到该片段属于每类动作的运动分类得分![]()
是由全连接层C个通道输出值组成的矢量;将所有片段的分类得分送入均值函数
中,得到视频属于每个类别的最终运动得分
所述的测试阶段首先进行预处理:选取待测试视频数据集,每帧图像大小为M×N,将待测试视频等分为K个片段,表示为Sc={Sc1,Sc2,…,ScK},下角标c表示测试集,假设测试集视频长度为B,则每个测试集片段长度为B/K;从每个片段中随机提取一帧图像,并用TV‑L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,每段提取结果表示为Tc={Tc1,Tc2,…,TcK},其中
包含一帧图像Ick′,通道数为3,以及x方向的光流数据
和y方向的光流数据
每个方向的通道数均为5,k′∈{1,2,…,K};测试阶段的具体步骤是:步骤(Ⅰ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的Ick′送入训练阶段得到的空间网络模型中,得到该片段属于每类动作的外观分类得分
再将所有片段的外观分类得分送入均值函数
中,得到视频属于每个类别的最终外观得分
步骤(Ⅱ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的x方向光流数据
和y方向光流数据
一起组成10通道的光流数据送入训练得到的时间网络模型中,得到该片段属于每类动作的运动分类得分
再将所有片段的分类得分送入均值函数
中,得到视频属于每个类别的最终运动得分
步骤(Ⅲ).将GIc和GLc进行加权平均融合,得到视频属于每个类别的得分G(Tc1,Tc2,…,TcK);G(Tc1,Tc2,…,TcK)中具有最大得分值的元素对应的类别就是该视频所属的行为类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910499059.2/,转载请声明来源钻瓜专利网。





