[发明专利]一种基于图像序列的行人行为类别检测方法在审

申请号：	202111010815.4	申请日：	2021-08-31
公开（公告）号：	CN113688761A	公开（公告）日：	2021-11-23
发明（设计）人：	唐俊;许辉;张艳;朱明	申请（专利权）人：	安徽大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图像序列行人行为类别检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图像序列的行人行为类别检测方法，其特征包括以下步骤：

步骤1：训练测试数据集的采集与处理；

步骤1.1：通过监控摄像头采集真实场景的行人活动视频，并将所述行人活动视频进行跳帧处理，获得不同场景下的行人图像帧并进行归一化处理后，用于训练多目标跟踪器；

利用训练后的多目标跟踪模型对所述行人活动视频进行跟踪处理，获得第p个目标人物的图像帧序列其中，为第p个目标人物在第t帧中的图像；T表示总帧数；

步骤1.2：对图像帧序列中的每帧图像进行类别的标注，从而构建训练数据集；

从所述图像帧序列中取长度为n的连续图像帧并构建成一个子序列记y_label为所述子序列的真实标签；

将第p个目标人物在第t帧中的图像进行归一化处理后，得到维度为(c,h,w)的特征图为从而得到特征图序列作为判别网络的输入序列；

步骤2：构建基于时空网络的判别模块，所述判别模块由一个卷积神经网络IfeNet、一个双向长短期记忆网络以及以一个注意力机制层构成；

步骤2.1：所述卷积神经网络IfeNet由M个下采样块组成，M个下采样块分别记为DownBlock₁,...,DownBlock_m,...,DownBlock_M，其中DownBlock_m代表第m级下采样块，m＝1,2,...,M；其中，第m级下采样块由第m级的一个二维卷积层Conv2d_m、一个BatchNormalization层BN_m以及一个激活函数LeakyRelu组成；

所述特征图经过卷积神经网络IfeNet中M个下采样块DownBlock₁,...,DownBlock_m,...,DownBlock_M后，得到维度为(c′,h′,w′)特征图从而将所有输出的特征图进行concat聚合并得到维度为(n,c′×w′×h′)的特征矩阵

步骤2.2：所述长短期记忆网络LSTM为包含hs个隐含层的双向网络；令长短期记忆网络LSTM的隐含层数量为v；

所述特征矩阵输入所述LSTM网络中，并由最后一层隐含层输出所述特征图对应的隐含层特征h_t；

步骤2.3：所述注意力机制层将所述隐含层特征h_t经过一个激活函数tanh进行处理，从而利用式(1)得到中间输出u_t：

u_t＝tanh(W_wh_t+b_w) (1)

式(1)中，b_w为偏置矩阵，W_w为根据h_t所设置的随机参数矩阵；

所述注意力机制层对所述中间输出u_t进行归一化处理，从而利用式(2)得到权重α_t：

式(1)中，为u_t的转置，u_w为根据设置的随机参数矩阵；

所述注意力机制层利用式(2)对权重α_t与隐含层特征h_t进行加权求和后，得到维度为(1,2×v)的向量表示S：

将所述特征向量S经过softmax层得到子序列的类别概率预测分布向量为y_pred；

步骤2.4：y_pred、y_label分别表示维度为(1，C)类别概率预测分布向量和真实标签，其中C表示类别数，通过式(4)构建基于时空网络判别模块的损失函数loss₁：

步骤3：构建基于未来帧的预测网络模块；

所述预测网络模块是由编码器网络和解码器两个部分组成，所述编码器网络与所述判别模块的结构相同；

所述解码器网络是由线性结构层和X个上采样块组成；X个上采样块分别记为Upsampleblock₁,...,Upsampleblock_x,...,Upsampleblock_X；其中，Upsampleblock_x表示第x级上采样块；

当x＝1,...,X-1时，所述Upsampleblock_x上采样块由一个装置卷积层ConvTranspose2d_x、一个BatchNormalization层BN_x以及一个ReLU激活函数构成；

当x＝X时，所述Upsampleblock_x上采样块由一个装置卷积层ConvTranspose2d_x和一个Sigmoid激活函数组成；

步骤3.1：将子序列分为两个部分，选取其中长度为n-1的第一部分子序列作为所述预测网络模块的输入，记所述第一部分子序列的标签I_label为第t帧中的图像

步骤3.2：将第一部分子序列输入到编码器网络中进行处理，并得到维度为(1,2×v)的特征向量S′；

将特征向量S′输入到线性结构层中后输出维度为(2×v,1,1)的特征图Featuremap；

所述特征图Featuremap经过X个上采样块后得到维度为(c,w,h)的特征矩阵I_pred；

根据预测的特征矩阵I_pred与真实的标签I_label，利用式(5)建立损失函数loss₂：

式(5)中，h，w，c分别表示预测的特征矩阵与标签所对应的图像的高度、图像的宽度以及图像的通道数，j，k，l为三个变量；

步骤4：训练预测阶段：

步骤4.1：利用式(6)建立反向传播的损失函数L_total，并通过Adam优化器以学习率l_r对判别模块和预测网络模块进行训练，从而更新网络参数使得损失函数L_total收敛，并得到最优网络模型；

L_total＝loss₁+λloss₂ (6)

式(6)中，λ为权重系数，λ∈(0,1]；

步骤4.2：将子序列输入最优网络模型中，并由训练后的判别模块得到第p个目标人物在t帧的类别概率预测分布向量S_t^p；

所述第一部分子序列经过训练后的预测模块网络得到对应的特征矩阵I′_pred；从而利用式(7)获得预测阶段的第p个目标人物在t帧时的行为类别概率分布Score_t^p：

式(7)中，β为权重参数，且β∈(0,1]；f为一个线性操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111010815.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种自动进出料的履带式抛丸机
下一篇：直播间热度排序方法、系统、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于图像序列的行人行为类别检测方法在审

专利文献下载