[发明专利]一种基于图像序列的行人行为类别检测方法在审
| 申请号: | 202111010815.4 | 申请日: | 2021-08-31 |
| 公开(公告)号: | CN113688761A | 公开(公告)日: | 2021-11-23 |
| 发明(设计)人: | 唐俊;许辉;张艳;朱明 | 申请(专利权)人: | 安徽大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230601 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图像 序列 行人 行为 类别 检测 方法 | ||
1.一种基于图像序列的行人行为类别检测方法,其特征包括以下步骤:
步骤1:训练测试数据集的采集与处理;
步骤1.1:通过监控摄像头采集真实场景的行人活动视频,并将所述行人活动视频进行跳帧处理,获得不同场景下的行人图像帧并进行归一化处理后,用于训练多目标跟踪器;
利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理,获得第p个目标人物的图像帧序列其中,为第p个目标人物在第t帧中的图像;T表示总帧数;
步骤1.2:对图像帧序列中的每帧图像进行类别的标注,从而构建训练数据集;
从所述图像帧序列中取长度为n的连续图像帧并构建成一个子序列记ylabel为所述子序列的真实标签;
将第p个目标人物在第t帧中的图像进行归一化处理后,得到维度为(c,h,w)的特征图为从而得到特征图序列作为判别网络的输入序列;
步骤2:构建基于时空网络的判别模块,所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成;
步骤2.1:所述卷积神经网络IfeNet由M个下采样块组成,M个下采样块分别记为DownBlock1,...,DownBlockm,...,DownBlockM,其中DownBlockm代表第m级下采样块,m=1,2,...,M;其中,第m级下采样块由第m级的一个二维卷积层Conv2dm、一个BatchNormalization层BNm以及一个激活函数LeakyRelu组成;
所述特征图经过卷积神经网络IfeNet中M个下采样块DownBlock1,...,DownBlockm,...,DownBlockM后,得到维度为(c′,h′,w′)特征图从而将所有输出的特征图进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵
步骤2.2:所述长短期记忆网络LSTM为包含hs个隐含层的双向网络;令长短期记忆网络LSTM的隐含层数量为v;
所述特征矩阵输入所述LSTM网络中,并由最后一层隐含层输出所述特征图对应的隐含层特征ht;
步骤2.3:所述注意力机制层将所述隐含层特征ht经过一个激活函数tanh进行处理,从而利用式(1)得到中间输出ut:
ut=tanh(Wwht+bw) (1)
式(1)中,bw为偏置矩阵,Ww为根据ht所设置的随机参数矩阵;
所述注意力机制层对所述中间输出ut进行归一化处理,从而利用式(2)得到权重αt:
式(1)中,为ut的转置,uw为根据设置的随机参数矩阵;
所述注意力机制层利用式(2)对权重αt与隐含层特征ht进行加权求和后,得到维度为(1,2×v)的向量表示S:
将所述特征向量S经过softmax层得到子序列的类别概率预测分布向量为ypred;
步骤2.4:ypred、ylabel分别表示维度为(1,C)类别概率预测分布向量和真实标签,其中C表示类别数,通过式(4)构建基于时空网络判别模块的损失函数loss1:
步骤3:构建基于未来帧的预测网络模块;
所述预测网络模块是由编码器网络和解码器两个部分组成,所述编码器网络与所述判别模块的结构相同;
所述解码器网络是由线性结构层和X个上采样块组成;X个上采样块分别记为Upsampleblock1,...,Upsampleblockx,...,UpsampleblockX;其中,Upsampleblockx表示第x级上采样块;
当x=1,...,X-1时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx、一个BatchNormalization层BNx以及一个ReLU激活函数构成;
当x=X时,所述Upsampleblockx上采样块由一个装置卷积层ConvTranspose2dx和一个Sigmoid激活函数组成;
步骤3.1:将子序列分为两个部分,选取其中长度为n-1的第一部分子序列作为所述预测网络模块的输入,记所述第一部分子序列的标签Ilabel为第t帧中的图像
步骤3.2:将第一部分子序列输入到编码器网络中进行处理,并得到维度为(1,2×v)的特征向量S′;
将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap;
所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵Ipred;
根据预测的特征矩阵Ipred与真实的标签Ilabel,利用式(5)建立损失函数loss2:
式(5)中,h,w,c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数,j,k,l为三个变量;
步骤4:训练预测阶段:
步骤4.1:利用式(6)建立反向传播的损失函数Ltotal,并通过Adam优化器以学习率lr对判别模块和预测网络模块进行训练,从而更新网络参数使得损失函数Ltotal收敛,并得到最优网络模型;
Ltotal=loss1+λloss2 (6)
式(6)中,λ为权重系数,λ∈(0,1];
步骤4.2:将子序列输入最优网络模型中,并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量Stp;
所述第一部分子序列经过训练后的预测模块网络得到对应的特征矩阵I′pred;从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Scoretp:
式(7)中,β为权重参数,且β∈(0,1];f为一个线性操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111010815.4/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





