[发明专利]一种集成注意力机制的行人重识别方法在审
| 申请号: | 201910908845.3 | 申请日: | 2019-09-25 |
| 公开(公告)号: | CN110688938A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 霍如;晁代崇;黄韬;刘江;魏亮 | 申请(专利权)人: | 江苏省未来网络创新研究院;南京优速网络科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06F16/55 |
| 代理公司: | 32237 江苏圣典律师事务所 | 代理人: | 贺翔 |
| 地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 注意力机制 图片特征 数据集 相似度 数据库 图片 采样能力 机制集成 检索步骤 损失函数 特征提取 不规则 嵌入 姿势 注意力 分类 | ||
本发明提供一种集成注意力机制的行人重识别方法,包括以下步骤:步骤一,构造嵌入多粒度注意力机制的CNN;步骤二,把train数据集输入CNN训练CNN,得到CNN模型,其中CNN的损失函数为分类损失和Trihard损失之和;步骤三,把gallery数据集输入到步骤二所述的CNN模型中,得到一个图片特征数据库,其中每个特征都有唯一的行人id;步骤四,输入query图片得到特征,检索步骤三中的图片特征数据库计算出相似度,选出相似度最高的这张图片,这张gallery图片的行人id就是query图片的行人id。该方法设计了一种新的注意力模块,相应提出了多粒度注意力机制,把该机制集成到CNN中,以提升CNN的特征提取水平,增强CNN的不规则采样能力,更强地适应行人姿势、背景等变化,以适应行人重识别任务。
技术领域
本发明涉及互联网通信技术领域,尤其是涉及一种集成注意力机制的行人重识别方法。
背景技术
行人重识别是利用计算机视觉技术判断不同相机的图像,或者视频序列中是否存在特定行人的技术,被广泛认为是图像检索的子问题。行人重识别技术可以在一个较大区域内跟踪一个人的轨迹,另外它在机器人技术、照片自动标注等方面也有着很高应用价值。行人重识别是学术界和工业界都非常关注的技术问题,相比于比较成熟的人脸识别技术,它依然是计算机视觉领域的难题。其主要挑战是识别和适应行人在不同相机上呈现的外貌变化,比如角度、姿势、色彩、遮挡等。现有行人重识别方案一般基于深度学习,即利用卷积神经网络(Convolutional Neural Network,下面称CNN)提取图片的特征向量,通过计算特征向量的相似度判断不同照片是否属于同一人。CNN是一种层级神经网络,其中低层对应图片的底层特征,高层对应着更为复杂的纹理特征。CNN通过层次结构自动学习得到输入图片的特征向量,但普通的CNN对于图片的局部特征同等看待,这样提取出的全局特征容易受到背景信息、噪音的干扰。
注意力机制模拟人脑的注意力机制,对不重要的部分投放较少注意力,对重要的部分投放更多注意力(其中注意力可理解为权重)。因此注意力机制可以灵活捕捉全局和局部的联系,有助于校准错位的图像,增强特征向量对姿势变化的适应性,消除噪音的干扰。在应用中注意力机制一般作为模块,作为卷积层或循环层的下一层嵌入到CNN中。已有的技术方案把注意力模块嵌入到CNN的尾部,即在CNN最终输出之前先经过多个并行的身体部位检测器提取出多个身体部位特征,最终组合输出特征向量。其中身体部位检测器就是注意力模块,每个注意力模块的掩码矩阵参数不同。具体实现来说可分为以下几个步骤:⑴每个身体部位检测器从CNN接收相同的全局张量输入,首先进行卷积操作得到了掩码矩阵。⑵对掩码矩阵进行sigmoid运算。⑶对⑵的结果进行tile运算,即在通道维度上的广播运算。⑷把⑴和⑶的结果进行element-wise运算,即对两个张量进行点积运算。⑸对⑷的结果在特征图维度上进行平均池化操作。⑹对⑸的结果经过全连接层处理实现降维。⑺把多个⑹的结果进行拼接操作,组合成全局特征。其中⑴-⑹是实现的是身体部位检测器,即注意力模块部分。
上述技术方案把注意力模块直接嵌入到CNN的末尾,而且是嵌入了多个注意力模块,每个注意力模块作为一个并行分支。这种全局注意力方案的缺点是缺少对图片原始特征的采样能力,即采样不够细腻,在最终结果上容易造成较大的全局误差。另外因为是有多个分支,网络模型整体的计算量较大。另一方面注意力层次不够丰富,全局特征的提取效果不尽理想。从注意力模块设计来看,设计比较简单,只是用到卷积层、sigmoid层而没用到全连接层进行更深的学习,这样得到的掩码矩阵比较粗糙。从最终应用结果上实验结果,发现抠图时抠人抠得不好,人容易变大或变小,重识别的准确率提升不够理想。
发明内容
针对上述技术问题,本发明提供了一种集成注意力机制的行人重识别方法,提出了多粒度注意力机制,把该机制集成到CNN中,以提升CNN的特征提取水平,增强CNN的不规则采样能力,CNN整体对行人图片具有多粒度注意力,更强地适应行人姿势、背景等变化,以适应行人重识别任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院;南京优速网络科技有限公司,未经江苏省未来网络创新研究院;南京优速网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910908845.3/2.html,转载请声明来源钻瓜专利网。





