[发明专利]一种集成注意力机制的行人重识别方法在审

申请号：	201910908845.3	申请日：	2019-09-25
公开（公告）号：	CN110688938A	公开（公告）日：	2020-01-14
发明（设计）人：	霍如;晁代崇;黄韬;刘江;魏亮	申请（专利权）人：	江苏省未来网络创新研究院;南京优速网络科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08;G06F16/55
代理公司：	32237 江苏圣典律师事务所	代理人：	贺翔
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	注意力机制图片特征数据集相似度数据库图片采样能力机制集成检索步骤损失函数特征提取不规则嵌入姿势注意力分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种集成注意力机制的行人重识别方法，包括以下步骤：步骤一，构造嵌入多粒度注意力机制的CNN；步骤二，把train数据集输入CNN训练CNN，得到CNN模型，其中CNN的损失函数为分类损失和Trihard损失之和；步骤三，把gallery数据集输入到步骤二所述的CNN模型中，得到一个图片特征数据库，其中每个特征都有唯一的行人id；步骤四，输入query图片得到特征，检索步骤三中的图片特征数据库计算出相似度，选出相似度最高的这张图片，这张gallery图片的行人id就是query图片的行人id。该方法设计了一种新的注意力模块，相应提出了多粒度注意力机制，把该机制集成到CNN中，以提升CNN的特征提取水平，增强CNN的不规则采样能力，更强地适应行人姿势、背景等变化，以适应行人重识别任务。

技术领域

本发明涉及互联网通信技术领域，尤其是涉及一种集成注意力机制的行人重识别方法。

背景技术

行人重识别是利用计算机视觉技术判断不同相机的图像，或者视频序列中是否存在特定行人的技术，被广泛认为是图像检索的子问题。行人重识别技术可以在一个较大区域内跟踪一个人的轨迹，另外它在机器人技术、照片自动标注等方面也有着很高应用价值。行人重识别是学术界和工业界都非常关注的技术问题，相比于比较成熟的人脸识别技术，它依然是计算机视觉领域的难题。其主要挑战是识别和适应行人在不同相机上呈现的外貌变化，比如角度、姿势、色彩、遮挡等。现有行人重识别方案一般基于深度学习，即利用卷积神经网络(Convolutional Neural Network，下面称CNN)提取图片的特征向量，通过计算特征向量的相似度判断不同照片是否属于同一人。CNN是一种层级神经网络，其中低层对应图片的底层特征，高层对应着更为复杂的纹理特征。CNN通过层次结构自动学习得到输入图片的特征向量，但普通的CNN对于图片的局部特征同等看待，这样提取出的全局特征容易受到背景信息、噪音的干扰。

注意力机制模拟人脑的注意力机制，对不重要的部分投放较少注意力，对重要的部分投放更多注意力(其中注意力可理解为权重)。因此注意力机制可以灵活捕捉全局和局部的联系，有助于校准错位的图像，增强特征向量对姿势变化的适应性，消除噪音的干扰。在应用中注意力机制一般作为模块，作为卷积层或循环层的下一层嵌入到CNN中。已有的技术方案把注意力模块嵌入到CNN的尾部，即在CNN最终输出之前先经过多个并行的身体部位检测器提取出多个身体部位特征，最终组合输出特征向量。其中身体部位检测器就是注意力模块，每个注意力模块的掩码矩阵参数不同。具体实现来说可分为以下几个步骤：⑴每个身体部位检测器从CNN接收相同的全局张量输入，首先进行卷积操作得到了掩码矩阵。⑵对掩码矩阵进行sigmoid运算。⑶对⑵的结果进行tile运算，即在通道维度上的广播运算。⑷把⑴和⑶的结果进行element-wise运算，即对两个张量进行点积运算。⑸对⑷的结果在特征图维度上进行平均池化操作。⑹对⑸的结果经过全连接层处理实现降维。⑺把多个⑹的结果进行拼接操作，组合成全局特征。其中⑴-⑹是实现的是身体部位检测器，即注意力模块部分。

上述技术方案把注意力模块直接嵌入到CNN的末尾，而且是嵌入了多个注意力模块，每个注意力模块作为一个并行分支。这种全局注意力方案的缺点是缺少对图片原始特征的采样能力，即采样不够细腻，在最终结果上容易造成较大的全局误差。另外因为是有多个分支，网络模型整体的计算量较大。另一方面注意力层次不够丰富，全局特征的提取效果不尽理想。从注意力模块设计来看，设计比较简单，只是用到卷积层、sigmoid层而没用到全连接层进行更深的学习，这样得到的掩码矩阵比较粗糙。从最终应用结果上实验结果，发现抠图时抠人抠得不好，人容易变大或变小，重识别的准确率提升不够理想。

发明内容

针对上述技术问题，本发明提供了一种集成注意力机制的行人重识别方法，提出了多粒度注意力机制，把该机制集成到CNN中，以提升CNN的特征提取水平，增强CNN的不规则采样能力，CNN整体对行人图片具有多粒度注意力，更强地适应行人姿势、背景等变化，以适应行人重识别任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院;南京优速网络科技有限公司，未经江苏省未来网络创新研究院;南京优速网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910908845.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种双目视觉辅助行驶寄生系统
下一篇：一种验证待识别证件图像的方法、系统及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种集成注意力机制的行人重识别方法在审

专利文献下载