[发明专利]基于注意力机制的视频监控场景下行人视图属性的定位与识别方法在审
| 申请号: | 202110543394.5 | 申请日: | 2021-05-19 |
| 公开(公告)号: | CN113361336A | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 禹鑫燚;陈唯琛;金燕芳;欧林林 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 视频 监控 场景 行人 视图 属性 定位 识别 方法 | ||
1.基于注意力机制的视频监控场景下行人视图属性的定位与识别方法,其特征在于:包括如下步骤:
步骤1:设计Inception-v4主干网络;
步骤2:设置视角预测分支;
步骤3:将视角置信度与浅层特征融合组成视角性特征属性;
步骤4:通过区域注意力定位视角性特征属性的位置;
步骤5:设计最终属性识别单元计算方式及损失函数;
步骤6:在公开的行人属性识别数据集上训练模型;
步骤7:应用于实际的视频监控图像来进行行人属性识别;
步骤8:制作Qt前端界面具体展现识别结果。
2.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法,其特征在于:所述步骤1具体包括:
1.1):选用Inception-v4作为主干网络。Inception-v4主要由Stem、Inception-A、Reduction-A、Inception-B、Reduction-B和Inception-C模块组成,将Inception-A模块的输出作为视角预测器分支的输入,Inception-C模块的输出作为区域注意力分支的输入;
1.2):深层网络训练中不可避免会产生大量的参数,为了减少参数,加快训练的速度,将重构的Inception网络去除最后的平均池化层、dropout层和Softmax函数激活,改为直接使用BatchNormalization层来归一化最终的属性识别单元。
3.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法,其特征在于:所述步骤2具体包括:
2.1):把Inception-v4主干网络中的浅层网络模块Inception-A的输出值作为视角预测器的输入。设计最大池化层,卷积层,自适应平均池化层和全连接层组成视角预测器;
2.2):将最后的全连接层的输出通道数设为4,从而输出前、后、左和右四个不同的视角置信度;视角置信度Yvp1,由公式(1)表示:
Yvp1=Softmax(Wfc2·(Wfc1·F′)) (1)
·表示两个矩阵的点积,Wfc1,Wfc2表示第一、二个全连接层的权重矩阵,F′表示经过最大池化层,卷积层,自适应平均池化层后输出的中间变量。
4.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法,其特征在于:所述步骤3具体包括:
3.1):修改视角预测器用于预测4个视角置信度值的全连接层的激活函数为Sigmoid函数,通过上采样,重新反馈到输入的浅层网络模块Inception-A。修改过的视角置信度Yvp2,由公式(2)表示:
Yvp2=σ(Wfc2·(Wfc1·F′)) (2)
3.2):将输入的浅层网络模块Inception-A提取的低级全局特征与修改后视角置信度相乘,组成特定的视角性特征属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110543394.5/1.html,转载请声明来源钻瓜专利网。





