[发明专利]一种集成注意力机制的行人重识别方法在审

申请号：	201910908845.3	申请日：	2019-09-25
公开（公告）号：	CN110688938A	公开（公告）日：	2020-01-14
发明（设计）人：	霍如;晁代崇;黄韬;刘江;魏亮	申请（专利权）人：	江苏省未来网络创新研究院;南京优速网络科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08;G06F16/55
代理公司：	32237 江苏圣典律师事务所	代理人：	贺翔
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	注意力机制图片特征数据集相似度数据库图片采样能力机制集成检索步骤损失函数特征提取不规则嵌入姿势注意力分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种集成注意力机制的行人重识别方法，其特征在于，所述识别方法包括以下步骤：

步骤一，构造嵌入多粒度注意力机制的CNN；

步骤二，把train数据集输入CNN训练CNN，得到CNN模型，其中CNN的损失函数为分类损失和Trihard损失之和；

步骤三，把gallery数据集输入到步骤二所述的CNN模型中，得到一个图片特征数据库，其中每个特征都有唯一的行人id；

步骤四，输入query图片得到特征，检索步骤三中的图片特征数据库计算出相似度，选出相似度最高的这张图片，这张gallery图片的行人id就是query图片的行人id。

2.根据权利要求1所述的一种集成注意力机制的行人重识别方法，其特征在于，步骤一中的CNN具体为：包含多个stage，每两个stage之间插入注意力模块；

所述注意力模块由卷积层conv、relu层、第一全连接层fc1、第二全连接层fc2、sigmoid层、tile层和element-wise层依次拼接而成；conv在通道维度上进行学习，并将通道数量压缩为1，将每张图片的输入张量的规模变成了二维平面；relu层起到非线性变换的作用，fc1起到在空间维度上的压缩作用，fc2起到在空间维度上的还原作用，fc1和fc2整体对特征图的筛选过滤；sigmoid层执行sigmoid运算，其输出结果为每个通道上的掩码矩阵；tile层在通道维度上进行广播运算，elment-wise层对经过tile运算的张量和原输入张量进行相乘运算。

3.根据权利要求2所述的一种集成注意力机制的行人重识别方法，其特征在于，对所述注意力模块进行参数设置，具体为：conv的输入通道数为C，输出通道数为1，卷积核大小为1x1，偏置为true；fc1层输入特征数为H x W，输出特征数为H，fc2层的输入特征数为H，输出特征数为H x W。

4.根据权利要求2所述的一种集成注意力机制的行人重识别方法，其特征在于，所述注意力模块的计算流程为：

步骤1.1，conv接收前一个stage输入，记为A，规模为(n x C x H x W)，并执行卷积运算；其中，n为训练批次大小，C为通道数量，H为特征图高度，W为特征图宽度，输出规模变为(n x 1 x H x W)；

步骤1.2，在特征维度上进行归一化操作；

步骤1.3，relu层接收GroupNorm后的输出，执行relu运算；

步骤1.4，fc1层接收relu层输出，执行全连接运算，输出规模变为(n x 1 x H x 1)；

步骤1.5，fc2层接收fc1层输出，执行全连接运算，输出规模变为(n x 1 x H x W)；

步骤1.6，对步骤1.5输出结果执行sigmoid运算；

步骤1.7，对上一步结果执行在通道维度上的广播运算，输出规模变为(n x C x H xW)，记为B；

步骤1.8，对A与B进行elment-wise运算，运算结果记为C，C的规模是(n x C x H x W)，输出C到后一个stage。

5.根据权利要求4所述的一种集成注意力机制的行人重识别方法，其特征在于，所述步骤1.2中执行GroupNorm操作在特征维度上进行归一化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。