[发明专利]基于注意力机制的视频监控场景下行人视图属性的定位与识别方法在审

申请号：	202110543394.5	申请日：	2021-05-19
公开（公告）号：	CN113361336A	公开（公告）日：	2021-09-07
发明（设计）人：	禹鑫燚;陈唯琛;金燕芳;欧林林	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制视频监控场景行人视图属性定位识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：包括如下步骤：

步骤1：设计Inception-v4主干网络；

步骤2：设置视角预测分支；

步骤3：将视角置信度与浅层特征融合组成视角性特征属性；

步骤4：通过区域注意力定位视角性特征属性的位置；

步骤5：设计最终属性识别单元计算方式及损失函数；

步骤6：在公开的行人属性识别数据集上训练模型；

步骤7：应用于实际的视频监控图像来进行行人属性识别；

步骤8：制作Qt前端界面具体展现识别结果。

2.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤1具体包括：

1.1)：选用Inception-v4作为主干网络。Inception-v4主要由Stem、Inception-A、Reduction-A、Inception-B、Reduction-B和Inception-C模块组成，将Inception-A模块的输出作为视角预测器分支的输入，Inception-C模块的输出作为区域注意力分支的输入；

1.2)：深层网络训练中不可避免会产生大量的参数，为了减少参数，加快训练的速度，将重构的Inception网络去除最后的平均池化层、dropout层和Softmax函数激活，改为直接使用BatchNormalization层来归一化最终的属性识别单元。

3.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤2具体包括：

2.1)：把Inception-v4主干网络中的浅层网络模块Inception-A的输出值作为视角预测器的输入。设计最大池化层，卷积层，自适应平均池化层和全连接层组成视角预测器；

2.2)：将最后的全连接层的输出通道数设为4，从而输出前、后、左和右四个不同的视角置信度；视角置信度Y_vp1，由公式(1)表示：

Y_vp1＝Softmax(W_fc2·(W_fc1·F′)) (1)

·表示两个矩阵的点积，W_fc1，W_fc2表示第一、二个全连接层的权重矩阵，F′表示经过最大池化层，卷积层，自适应平均池化层后输出的中间变量。

4.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤3具体包括：

3.1)：修改视角预测器用于预测4个视角置信度值的全连接层的激活函数为Sigmoid函数，通过上采样，重新反馈到输入的浅层网络模块Inception-A。修改过的视角置信度Y_vp2，由公式(2)表示：

Y_vp2＝σ(W_fc2·(W_fc1·F′)) (2)

3.2)：将输入的浅层网络模块Inception-A提取的低级全局特征与修改后视角置信度相乘，组成特定的视角性特征属性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110543394.5/1.html，转载请声明来源钻瓜专利网。

上一篇：大型挖泥泵泵轴用复合式机械密封装置
下一篇：档位式伸缩的支撑腿及儿童安全座椅

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力机制的视频监控场景下行人视图属性的定位与识别方法在审

专利文献下载