[发明专利]一种基于深度残差网络的行为识别方法有效

申请号：	201910499059.2	申请日：	2019-06-11
公开（公告）号：	CN110378208B	公开（公告）日：	2021-07-13
发明（设计）人：	陈华华;查永亮;叶学义	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	杨舟涛
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度网络行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度残差网络的行为识别方法，包括训练阶段和测试阶段，其特征在于：

所述的训练阶段首先进行预处理：

选取待检测视频数据集，视频数据集包含训练数据集和测试数据集；将待训练视频等分为K个片段，表示为S_r＝{S_r1,S_r2,…,S_rK}，下角标r表示训练集，假设视频长度为A,则每个片段长度为A/K；图像尺寸均规范化为M×N，M和N分别表示图像的高度和宽度，M＝224，N＝224；

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，提取结果表示为分段T_r＝{T_r1,T_r2,…,T_rK}，其中包含一帧图像I_rk，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k∈{1,2,…,K}；

训练阶段的具体步骤是：

步骤(1).构建时空双流网络：所述的时空双流网络包含空间网络和时间网络，空间网络和时间网络都使用级联ResNet网络实现；所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器；

所述的残差网络单元包含以下结构：

第一层包含1×1卷积核，该层参数为通道数channel为H，步长stride为Q，补零宽度zero-padding为0，BN处理和Relu处理；所述的BN处理为批归一化处理，Relu处理为改进型线性单元处理；

第二层包含3×3卷积核，该层参数为通道数channel为I，步长stride为1，补零宽度zero-padding为1,BN处理和Relu处理；

第三层包含1×1卷积核，该层参数为通道数channel为J，步长stride为1，补零宽度zero-padding为0，BN处理，输出J个通道的二维矩阵U_i,i＝1,2,…,J；

第三层后接平均池化层，经过平均池化层后，经过两个前后级联的通道数为J/16的全连接层，输出再经过通道数为J的全连接层，后接Sigmoid激活函数层，输出是长度为J的实数数列s；将U_i和s一起输入缩放层得到输出V_i，缩放层运算为V_i＝s_i⊙U_i，表示s_i与U_i中的每个元素相乘，s_i是数列s的第i个元素，i＝1,2,…,J；输出J个通道的V_i，i＝1,2,…,J；最后将缩放层的输出和第一层的输入相加，采用Relu处理后输出，输出通道数为J；如果第一层输入的通道数不足J，就将缺少的通道数用0填充；

空间网络的学习步骤如下：

(a)输入图像尺寸为224×224×3，经过一个卷积核大小为7×7的卷积层，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；

(b)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；

(c)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；

(d)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；

(e)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；

(f)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(g)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(h)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(i)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(j)经过级联的平均池化层和全连接层，池化层的大小7×7，步长stide为1，输出尺寸为1×1×2048，全连接层输出通道数为C，输出尺寸为1×1×C，使用Softmax分类器得出分类结果；

时间网络的学习步骤如下：

(k)输入光流图像尺寸为224×224×10，经过一个7×7的卷积核的卷积，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；

(l)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；

(m)经过3个结构相同的残差网络单元，该残差单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；

(n)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；

(o)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；

(p)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(q)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(r)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(s)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(t)经过级联的平均池化层和全连接层，池化层的大小7×7，步长stride为1，输出尺寸为1×1×2048，经全连接层输出尺寸为1×1×C，使用Softmax分类器得出分类结果；

步骤(2).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的图像I_rk分别送入空间网络中进行迭代训练，k∈{1,2,…,K}；批量大小设置为N_rip，r表示训练集，i表示空间网络以图像为输入，p表示批量大小设置，N_rip∈{4,5,6,7,8}；设置学习率初始值为L_ri，0≤L_rl≤0.0015；每隔N_ri次迭代后更新学习率，使学习率降为原来的th_ri，2500≤N_rl≤3000，0.8≤th_ri≤0.9；当训练迭代N_rii次时，结束训练，得到空间网络的模型，16000≤N_rli≤18000；

训练完成后得到该片段属于每类动作的外观分类得分是由全连接层C个通道输出值组成的矢量，向量长度为C；

将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分

步骤(3).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练，k∈{1,2,…,K}；批量大小设置为N_rlp，r表示训练集，l表示空间网络以光流为输入，p表示批量大小设置，N_rlp∈{4,5,6,7,8}；设置学习率初始值为L_rl，0≤L_rl≤0.0015；每隔N_rl次迭代后更新学习率，使学习率降为原来的th_rl，2500≤N_rl≤3000，0.8≤th_ri≤0.9；当训练迭代N_rli次时，结束训练，得到时间网络的模型，16000≤N_rli≤18000；

训练完成后得到该片段属于每类动作的运动分类得分是由全连接层C个通道输出值组成的矢量；

将所有片段的运动分类得分送入均值函数中，得到视频属于每个类别的最终运动得分

所述的测试阶段首先进行预处理：

选取待测试视频数据集，每帧图像大小为M×N，将待测试视频等分为K个片段，表示为S_c＝{S_c1,S_c2,…,S_cK}，下角标c表示测试集，假设测试集视频长度为B,则每个测试集片段长度为B/K；

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，每段提取结果表示为分段T_c＝{T_c1,T_c2,…,T_cK}，其中包含一帧图像I_ck′，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k′∈{1,2,…,K}；

测试阶段的具体步骤是：

步骤(Ⅰ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的I_ck′送入训练阶段得到的空间网络模型中，得到该片段属于每类动作的外观分类得分再将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分

步骤(Ⅱ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中，得到该片段属于每类动作的运动分类得分再将所有片段的运动分类得分送入均值函数中，得到视频属于每个类别的最终运动得分

步骤(Ⅲ).将G_Ic和G_Lc进行加权平均融合，得到视频属于每个类别的得分G(T_c1,T_c2,…,T_cK)；

G(T_c1,T_c2,…,T_cK)中具有最大得分值的元素对应的类别就是该视频所属的行为类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910499059.2/1.html，转载请声明来源钻瓜专利网。