[发明专利]基于跨上下文和特征响应注意力机制的车辆重识别方法有效
申请号: | 202310436317.9 | 申请日: | 2023-04-23 |
公开(公告)号: | CN116152792B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 庞希愚;孙珂;郑美凤;李曦;周厚仁;周晓颖;田佳琛;王成;栗世涛 | 申请(专利权)人: | 山东交通学院 |
主分类号: | G06V20/60 | 分类号: | G06V20/60;G06V10/82;G06V10/778;G06V20/70;G06V10/764;G06N3/0464;G06N3/048;G06N3/082 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 步丽丽 |
地址: | 250000 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨上 下文 特征 响应 注意力 机制 车辆 识别 方法 | ||
1.基于跨上下文和特征响应注意力机制的车辆重识别方法,其特征在于,包括:
步骤1、将车辆图像作为输入,采用Resnet50作为骨干网络,res_conv4_1之后的部分被划分为三个独立的分支;三个分支分别是:全局分支Global Branch、两个局部分支Part_1Branch和Part_2Branch;
步骤2、在Global Branch分支的res_conv5层后添加通道注意力模块,通道注意力模块分别基于通道间的成对关系以及两种不同的压缩方式构建上下文信息和特征响应;再使用1D卷积对区域内的上下文和特征响应进行混合,同时编码全局信息和局部信息,获取通道间的长距离依赖和鉴别性特征;
步骤3、对于Part_1Branch和Part_2Branch,res_conv5层的输出被输入到空间注意力模块中;空间注意力模块利用位置间的自相关性获取上下文信息,在空间方向上捕获长距离依赖关系,同样以两种不同的挤压方式得到特征响应来确保每个空间位置的自身信息的整合,再以卷积的方式高效混合上下文和特征响应以获取局部关系,实现车辆重识别;
所述通道注意力模块的结构为:
以res_conv5层的输出特征图F∈RC×H×W作为通道注意力模块的输入,其中C、H和W分别指特征图的通道数、高度和宽度;
输入特征图F经过变形得到一个尺寸为C×(H*W)的矩阵Q,同时F通过分组卷积并变形得到一个尺寸为C/α×(H*W)的矩阵K;将分组数为G的分组卷积作用于输入特征图,并在分组卷积的过程中将特征图的输出通道的大小缩减至C/α;
矩阵Q和矩阵KT过矩阵乘法运算和、soft max激活函数得到通道上下文关系矩阵X∈RC×(C/α);soft max函数使得矩阵X中代表了某通道与其他各个通道成对依赖关系的每列元素相加都等于1;X的计算公式表示为:
其中,代表矩阵相乘运算符;
在行方向上并行不同的挤压操作,分别利用平均池化和最大池化生成基于通道成对关系的统计性信息和显著性信息,进而得到两个不同含义的全局上下文描述符,记为favg∈RC×1和fmax∈RC×1,
favg=Avgpool(X),fmax=Maxpool(X),
对输入特征图F实施池化操作将空间信息嵌入到通道中进行编码并推断出更精细的通道注意力;通过跨空间维度聚合特征图产生通道统计性特征响应描述符和通道显著性特征响应描述符,记为f′avg∈RC×1和f′max∈RC×1,
f′avg=Avgpool(F),f′max=Maxpool(F),
将这四个代表不同意义的通道描述符堆叠起来,使其输入到一个由卷积核大小为3*3的1D卷积和sigmoid激活层组成的嵌入函数Φ(x)中并变形得到输出向量f∈RC×1:
f=sigmoid(1Dconv(fc)),
其中fc∈RC×4代表堆叠后的描述符集合,表示为fc={favg,fmax,favg,fmax};1Dconv表示卷积核为3*3的1D卷积;
将Φ(x)的输出向量f与原始输入特征图进行元素点乘,添加到原始特征图中,即进行残差操作得到特征图I∈RC×H×W;对I依次进行批量归一化和GELU激活函数操作,得到最终输出特征图Y∈RC×H×W:
I=f⊙F+F,
Y=GELU(BN(I)),
其中,⊙为点乘操作;
所述空间注意力模块的结构为:
以res_conv5层的输出特征图作为输入F∈RC×H×W,其中C是特征图的通道数,H和W分别为特征图的高度和宽度;特征图F经过变形得到尺寸为(H*W)×C的矩阵Z,同时F通过深度卷积并变形得到尺寸为(H*W)/β×C的矩阵U;具体的,使用卷积核尺寸为S×S、步幅为S的深度卷积来缩小矩阵U的空间大小;
矩阵Z和U经过矩阵乘法运算和soft max函数得到空间上下文关系矩阵P∈R(H*W)×(H*W)/β;经过soft max函数后,矩阵P列方向上的和为1;P的计算公式为:
使用行方向的平均池化和最大池化操作聚合矩阵P的位置上下文信息,生成两个不同的全局上下文描述向量,即基于位置关系的空间统计性上下文描述向量和空间显著性上下文描述向量:lavg∈R(H*W)×1和lmax∈R(H*W)×1;
lavg和lmax经过变形得到空间上下文描述符Lavg∈RH×W以及Lmax∈RH×W,两者分别表示平均池化特征和最大池化特征;
Lavg=reshape(Avgpool(P)),Lmax=reshape(Maxpool(P)),
对输入特征图F分别进行平均池化和最大池化操作获取统计性特征响应和显著性特征响应;通过跨通道维度聚合特征图产生空间统计性特征响应描述符和空间显著性特征响应描述符L′avg∈RH×W和L′max∈RH×W,
L′avg=Avgpool(F),Lmax=Maxpool(F),
得到四个不同类型的空间描述符,将在通道方向上拼接起来的空间描述符表示为LS={Lavg,Lmax,L′avg,L′max},LS∈4×H×W;
采用一个由sigmoid函数和2D卷积组成的嵌入函数η(p)来混合某一位置的区域内的跨上下文和特征响应,同时学习全局表示和局部表示;得到空间注意力图L∈1×H×W,
L=sigmoid(conv(LS)),
其中,conv代表2D卷积;
将注意力图L与原始输入特征图进行元素点乘和残差操作得到特征图J∈RC×H×W;依次施加批量归一化和GELU激活函数操作得到最终输出特征图T∈RC×H×W,
J=L⊙F+F,
T=GELU(BN(J))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东交通学院,未经山东交通学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310436317.9/1.html,转载请声明来源钻瓜专利网。