[发明专利]一种全局多阶段目标跟踪方法有效
申请号: | 202010972556.2 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112215079B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 王正宁;赵德明;曾浩;曾仪;奚伟航;刘怡君 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全局 阶段 目标 跟踪 方法 | ||
1.一种全局多阶段目标跟踪方法,其特征在于,该方法包括以下步骤:
1)使用两个结构相同、参数共享的深度残差网络ft(·)与fs(·),分别提取标注有跟踪目标边界框的第一帧t的特征Ft=ft(t)和任意待找出跟踪目标的搜索帧s的特征Fs=fs(s),其中,分别在ft(·)与fs(·)的第三、第四、第五个网络区块中加入可变形卷积模块;
2)利用可变形卷积模块进行可变形卷积的步骤为:将要进行可变形卷积的长、宽、通道数为[w,h,c1]的特征图x,通过一组卷积层得到尺寸为[w,h,2N]的偏移参数Δpn,再通过偏移参数Δpn对所述特征图x进行可变形卷积操作,接下来阐述可变形卷积具体原理与过程:
一般卷积核在张量上进行卷积时,一次只会与感受域内的元素进行运算,对于
表示一个3×3卷积核感受域中9个权重的相对位置坐标,对特征图x与权重为w的卷积核进行一般卷积后的输出y在pa位置上的值y(pa)可以表示为:
其中pa表示绝对位置坐标,pn表示在感受域中的相对位置坐标,x(pa+pn)表示输入特征图x在pa+pn位置上的值,w(pn)表示卷积核在pn位置上的值;
可变形卷积与一般卷积的区别在于,其卷积核感受域不再局限于上固定的位置,而会存在一定的偏移,可变形卷积操作可以表示为:
其中Δpn表示pn的位置偏移,其中n=1,...,N,N为一个卷积核中参数的个数,即对3×3卷积核而言N=9,不再固定的感受域让可变形卷积对跟踪物体的形变有更好的特征提取能力;
3)当Δpn为小数而不是整数时,采用双线性插值来获得输入特征图x在p=pa+pn+Δpn位置上的值,即:
其中q表示输入特征图x上任意一个空间位置,而
G(q,p)=g(qx,px)·g(qy,py) (5)
g(a,b)=max(0,1-|a-b|) (6)
其中,px、py分别表示位置p的x坐标值与y坐标值;qx、qy分别表示位置q的x坐标值与y坐标值;
4)获得Ft后,根据t所标注的跟踪目标信息,使用感兴趣区域一致划分ROI Align,将Ft的中的跟踪目标特征FtR提取出来,将FtR与Fs进行卷积相关运算,获得相关性特征将此相关性特征送入区域候选网络,获得一系列候选区域;
进行卷积相关运算的具体步骤表达如下:
其中fs1(·)与ft1(·)是两个分别用于对Fs与FtR进行特征映射的卷积层,代表卷积运算,fout1(·)是一个用于调整fs1(Fs)与ft1(FtR)通道的卷积层;
5)区域候选网络使用了导向锚框机制,使用导向锚框机制在相关性特征的[w,h]上的每个空间位置上生成一个锚框,进而指导生成候选框;首先将输入特征F通过卷积操作,获得每个位置的锚框形状和锚框置信度,其中,锚框形状即锚框的长和宽;将锚框形状送入大小为1×1卷积层获得偏移参数Δ′pn,利用偏移参数Δ′pn对输入特征F进行卷积操作,获得输入特征F′;再通过两个不同的卷积层,输出候选框的置信度与位置信息;
通过导向锚框获得锚框形状实际代表的是锚框的相对长宽dw与dh,其与绝对长宽的关系如下:
w=σ·s·edw,h=σ·s·edh (7)
其中σ是尺度系数,s代表F中1个单位长度对应原始输入图像的s个单位长度;
在实际训练所述区域候选网络时,由于所述区域候选网络有四个输出,所以区域候选网络的损失包括四个部分:锚框分类损失与锚框回归损失候选框分类损失与候选框回归损失
其中,λ1与λ2用于损失平衡,使用Focal Loss,使用Bounded IoU Loss,使用交叉熵损失,使用SmoothL1 Loss;
6)获得候选框后,按照每个候选框所对应区域,使用感兴趣区域一致划分ROI Align将不同区域的Fs提取出来,获得一组候选框区域特征FsR;将每一个FsR与FtR进行哈达玛Hadamard相关运算,获得的候选框相关性特征进行哈达玛Hadamard相关运算的具体步骤表达如下:
其中fs2(·)与ft2(·)是两个分别用于对FsR与FtR进行特征映射的卷积层,⊙代表哈达玛Hadamard积,fout2(·)是一个用于调整fs2(FsR)与ft2(FtR)通道的卷积层;
7)将送入到第一阶段的候选框分类回归网络,对每一个候选框进行精修,得到一组结果框与对应置信度;将拉直后通过一系列全连接层,获得对应候选框精修后的分类与回归结果,将所有的都送入网络后,获得第一阶段候选框分类回归网络输出的结果框与置信度;
8)将第一阶段候选框分类回归网络的结果框作为候选框,按照步骤6)中的处理方法获得一组新的将新的送入到第二阶段的候选框分类回归网络,得到第二阶段候选框分类回归网络的结构框与置信度;最后将第二阶段结果作为候选框,按照步骤6)中的处理方法再获得一组新的送入第三阶段网络,得到第三阶段候选框分类回归网络的结构框与置信度;
第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同,唯一的不同在于,训练时对正样本,即认为结果框包围住了目标的判断标准不同;当结果框与真值的交并比大于预先设定的阈值时,即将结果框判定为正样本进行训练;第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为TIoU1,TIoU2,TIoU3,且0TIoU1TIoU2TIoU31;三个阶段的正样本判别阈值逐渐升高,这是因为初级阶段使用低阈值来精修低精确度,即使用与真值的交并比较低的候选框,避免由于阈值过高导致许多候选框被判别为负样本,导致漏检;越到后期,候选框精确度提高,这时就可使用更高的判别阈值可以使候选框精确度进一步提升;
9)在训练候选框分类回归网络时,由于通过每个都会得到一组结果框与置信度,所以候选框分类回归网络的损失为:
其中λ用于损失平衡,使用交叉熵损失,使用SmoothL1 Loss;
10)当第三阶段候选框分类回归网络输出结果后,从第三个阶段的输出中选取置信度最高的结果框作为第一帧t上目标在搜索帧s上的跟踪结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972556.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于数据流架构的稀疏卷积神经网络加速方法及装置
- 下一篇:一种锻压用剪切机