[发明专利]一种集成注意力机制的行人重识别方法在审
| 申请号: | 201910908845.3 | 申请日: | 2019-09-25 |
| 公开(公告)号: | CN110688938A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 霍如;晁代崇;黄韬;刘江;魏亮 | 申请(专利权)人: | 江苏省未来网络创新研究院;南京优速网络科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06F16/55 |
| 代理公司: | 32237 江苏圣典律师事务所 | 代理人: | 贺翔 |
| 地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 注意力机制 图片特征 数据集 相似度 数据库 图片 采样能力 机制集成 检索步骤 损失函数 特征提取 不规则 嵌入 姿势 注意力 分类 | ||
1.一种集成注意力机制的行人重识别方法,其特征在于,所述识别方法包括以下步骤:
步骤一,构造嵌入多粒度注意力机制的CNN;
步骤二,把train数据集输入CNN训练CNN,得到CNN模型,其中CNN的损失函数为分类损失和Trihard损失之和;
步骤三,把gallery数据集输入到步骤二所述的CNN模型中,得到一个图片特征数据库,其中每个特征都有唯一的行人id;
步骤四,输入query图片得到特征,检索步骤三中的图片特征数据库计算出相似度,选出相似度最高的这张图片,这张gallery图片的行人id就是query图片的行人id。
2.根据权利要求1所述的一种集成注意力机制的行人重识别方法,其特征在于,步骤一中的CNN具体为:包含多个stage,每两个stage之间插入注意力模块;
所述注意力模块由卷积层conv、relu层、第一全连接层fc1、第二全连接层fc2、sigmoid层、tile层和element-wise层依次拼接而成;conv在通道维度上进行学习,并将通道数量压缩为1,将每张图片的输入张量的规模变成了二维平面;relu层起到非线性变换的作用,fc1起到在空间维度上的压缩作用,fc2起到在空间维度上的还原作用,fc1和fc2整体对特征图的筛选过滤;sigmoid层执行sigmoid运算,其输出结果为每个通道上的掩码矩阵;tile层在通道维度上进行广播运算,elment-wise层对经过tile运算的张量和原输入张量进行相乘运算。
3.根据权利要求2所述的一种集成注意力机制的行人重识别方法,其特征在于,对所述注意力模块进行参数设置,具体为:conv的输入通道数为C,输出通道数为1,卷积核大小为1x1,偏置为true;fc1层输入特征数为H x W,输出特征数为H,fc2层的输入特征数为H,输出特征数为H x W。
4.根据权利要求2所述的一种集成注意力机制的行人重识别方法,其特征在于,所述注意力模块的计算流程为:
步骤1.1,conv接收前一个stage输入,记为A,规模为(n x C x H x W),并执行卷积运算;其中,n为训练批次大小,C为通道数量,H为特征图高度,W为特征图宽度,输出规模变为(n x 1 x H x W);
步骤1.2,在特征维度上进行归一化操作;
步骤1.3,relu层接收GroupNorm后的输出,执行relu运算;
步骤1.4,fc1层接收relu层输出,执行全连接运算,输出规模变为(n x 1 x H x 1);
步骤1.5,fc2层接收fc1层输出,执行全连接运算,输出规模变为(n x 1 x H x W);
步骤1.6,对步骤1.5输出结果执行sigmoid运算;
步骤1.7,对上一步结果执行在通道维度上的广播运算,输出规模变为(n x C x H xW),记为B;
步骤1.8,对A与B进行elment-wise运算,运算结果记为C,C的规模是(n x C x H x W),输出C到后一个stage。
5.根据权利要求4所述的一种集成注意力机制的行人重识别方法,其特征在于,所述步骤1.2中执行GroupNorm操作在特征维度上进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院;南京优速网络科技有限公司,未经江苏省未来网络创新研究院;南京优速网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910908845.3/1.html,转载请声明来源钻瓜专利网。





