[发明专利]一种复杂环境中的深度目标跟踪方法有效
| 申请号: | 202010445179.7 | 申请日: | 2020-05-23 |
| 公开(公告)号: | CN111640136B | 公开(公告)日: | 2022-02-25 |
| 发明(设计)人: | 蒋晓悦;王小健;李浩;方阳;王鼎;李煜祥 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06T7/246 | 分类号: | G06T7/246 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 复杂 环境 中的 深度 目标 跟踪 方法 | ||
1.一种复杂环境中的深度目标跟踪方法,其特征在于,包括以下步骤:
步骤1:目标跟踪网络训练
步骤1-1:从公共数据集中获取训练用视频样本;根据式(1)计算视频样本第一帧图像中目标真值框宽w和高h的平均值p;以目标真值框中心位置为中心点,在视频样本第一帧图像中选取矩形区域,矩形区域的宽为w′,高为h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出第一帧图像范围,超出的部分采用矩形区域在图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为D*D,D为预设值,将该D*D大小的图像作为网络训练用模板帧;
w′=w+p h′=h+p (2)
步骤1-2:根据式(1)计算视频样本除第一帧外的其余每帧图像中目标真值框宽w和高h的平均值p;以每帧图像中目标真值框中心位置为中心点,在每帧图像中选取矩形区域,矩形区域的宽为4w′,高为4h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出当前帧图像范围,超出的部分采用矩形区域在当前帧图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为E*E,E为预设值,将每帧图像生成的所有E*E大小的图像作为网络训练用检测帧;
步骤1-3:定义基础残差模块1和基础残差模块2;
基础残差模块1由三个依次连接的卷积层组成;第一个和第三个卷积层卷积核大小为1x1,步长为1,无填充,用于改变上下层级网络的输入输出形状;第二个卷积层为主体卷积层,卷积核大小为3x3,步长为1,填充为1;
基础残差模块2由分支1和分支2组成;分支1与基础残差模块1完全相同;分支2为一个卷积层,卷积核大小为1x1,步长为1;分支1和分支2并行处理;
步骤1-4:目标跟踪网络的主干网络采用Resnet50;Resnet50的卷积单元conv1使用7x7大小的卷积核,用于提取输入帧的空间几何特征;Resnet50的卷积单元conv2.x、conv3.x、conv4.x、conv5.x分别包含3、4、6、3个基础残差模块,除conv3.x、conv4.x、conv5.x三个卷积单元的第一个基础残差模块使用基础残差模块2外,其余所有基础残差模块均使用基础残差模块1;主干网络不包含全连接层;
步骤1-5:将模板帧记作z,检测帧记作t;将模板帧与检测帧分别输入两个完全相同的孪生主干网络,分别输出模板帧特征图和检测帧特征图
步骤1-6:构造区域提议网络前置卷积层,由一个包含3x3卷积核的卷积层连接一个包含1x1卷积核的卷积层组成;将模板帧特征图输入区域提议网络前置卷积层,前置卷积层的输出再和检测帧特征图进行多通道互相关运算,得到分类分支响应图和回归分支响应图;
分类分支响应图通道数为2k,回归分支响应图通道数为4k;k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量;锚点个数n=wrp·hrp,式中wrp为响应图宽度,hrp为响应图高度,总的锚框个数为N=n·k;
步骤1-7:计算每个锚框与当前检测帧目标真值框的交并比,交并比小于等于a1的锚框记为负样本,交并比大于等于a2的锚框记为正样本,交并比介于a1和a2之间的锚框不用于训练,a1和a2为预设值,且0a1a21;
所有的正样本和负样本用于区域提议网络分类分支中目标与背景的分类训练,所有的正样本用于区域提议网络回归分支中目标边框的边框回归训练;
步骤1-8:定义单个锚框的分类损失Lcls为:
Lcls=-∑i=1,2yilogpi (3)
式中,yi∈{y1,y2}为锚框的样本标签,y1={1,0}表示该锚框为正样本,y2={0,1}表示该锚框为负样本,pi∈{p1,p2}为分类分支响应图结果,p1表示该锚框为正样本的概率,p2表示该锚框为负样本的概率;
步骤1-9:定义单个锚框的边框回归损失Lreg为:
式中,d*∈{dx,dy,dw,dh},dx、dy为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差,dw、dh为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差;σ为曲线形状参数;t*∈{tx,ty,tw,th},tx、ty为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差,tw、th为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差,计算如下:
(Ax,Ay)为锚框的中心点坐标,Aw、Ah分别为锚框的宽和高,(Tx,Ty)为当前检测帧目标真值框中心点坐标,Tw、Th分别为当前检测帧目标真值框宽和高;
smooth L1函数计算公式如下:
x为函数自变量;
步骤1-10:定义单个锚框的总损失为:
Lanc=Lreg+Lcls (6)
定义单帧的区域提议网络损失Lrpn为:
式中NA为单帧中的锚框总数;
步骤1-11:使用模板帧特征图在检测帧特征图上做滑窗操作,滑窗内模板帧特征图与检测帧特征图进行互相关运算,得到检测帧特征图中各个窗口得分f(z,t),计算如下:
模板帧特征图完成在整个检测帧特征图上的滑窗操作,得到该检测帧特征图全局得分图D;
步骤1-12:定义得分图上得分点的损失为:
l(y,v)=log(1+exp(-yv)) (9)
式中,y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签,y∈{+1,-1};v为该得分点真实得分值,v=f(z,t)由式(8)计算得到;
在整个得分图G上所有得分点的损失为:
式中u为得分图上得分点对应的当前检测帧中锚框的中心点坐标,v[u]为得分图上得分点的真实得分值;y[u]为得分图上得分点的真值标签,计算如下式:
式中,c为该检测帧的真值边框的中心点坐标,R为坐标差阈值,k1为比例系数;
步骤1-13:定义单帧图像总损失为:
L=L(y,v)+Lrpn (12)
步骤1-14:根据步骤1-11计算当前检测帧之前连续m个检测帧的得分图,m个检测帧得分图中的最大值为Gmax;计算当前检测帧的得分图Gnow;
当Gnow/Gmaxthd时,0thd1为目标遮挡阈值,用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧,用新的模板帧替换当前模板帧;当Gnow/Gmax≥thd时,保持原来的模板帧不变;
步骤1-15:将当前模板帧和视频样本的各个检测帧分别组成图像对,再将图像对按照视频样本中的检测帧顺序依次输入网络,计算每个图像对的单帧图像总损失,当单帧图像总损失不再降低,完成目标跟踪网络训练;
步骤2:目标跟踪
步骤2-1:人工在待处理视频序列第一帧图像中用矩形框选定需要跟踪的目标,使目标恰好处于矩形框内,将此矩形框定义为目标真值框;再采用步骤1-1的方法得到模板帧;
步骤2-2:在待处理视频序列第二帧图像中选择矩形框,矩形框的中心点坐标和第一帧图像中目标真值框的中心点坐标相同,矩形框的高、宽和第一帧图像中目标真值框的高、宽相同,将在第二帧图像中选择的矩形框定义为第二帧图像的目标真值框,再采用步骤1-2的方法得到第二帧图像的检测帧;
步骤2-3:将步骤2-1和2-2得到的模板帧和检测帧组成图像对,将图像对输入步骤1训练完成的目标跟踪网络,目标跟踪网络的输出为在当前检测帧中跟踪到的目标位置信息,目标位置信息由包含目标的矩形框的中心点坐标、矩形框高度值和宽度值组成;
步骤2-4:对于待处理视频中除前两帧图像之外的其他图像帧,在当前图像帧中选择矩形框,矩形框中心点位置、宽度值、高度值和当前图像帧的上一帧图像跟踪到的目标位置信息相同;将当前图像帧中选择的矩形框定义为当前图像帧的目标真值框,再采用步骤1-2的方法得到当前图像帧的检测帧;将当前图像帧的检测帧和模板帧组成图像对,输入目标跟踪网络,网络的输出为在前检测帧中跟踪到的目标位置信息;
步骤2-5:按照步骤1-14的方法,对模板帧进行更新;
步骤2-6:根据步骤1-11,计算当前检测帧的得分图Gnow和当前帧前一帧的得分图Gbef;当Gnow/Gbeffthd,fthd为目标丢失阈值,且0fthdthd1,则重新确定当前图像帧的检测帧;
步骤2-7:重复步骤2-4到2-6,直至完成待处理视频最后一帧的目标跟踪。
2.如权利要求1所述的一种复杂环境中的深度目标跟踪方法,其特征在于,步骤2-6中所述的重新确定当前图像帧的检测帧的方法如下:
将当前图像帧扩展为一个正方形图像,正方形图像的边长为当前图像帧宽和高中较大者,正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充,再将正方形图像尺寸缩放到E*E;将这个E*E大小的图像作为新的检测帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010445179.7/1.html,转载请声明来源钻瓜专利网。





