[发明专利]一种全局多阶段目标跟踪方法有效
申请号: | 202010972556.2 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112215079B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 王正宁;赵德明;曾浩;曾仪;奚伟航;刘怡君 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全局 阶段 目标 跟踪 方法 | ||
本发明公开了一种全局多阶段目标跟踪方法,涉及图像处理和计算机视觉领域。该方法使用的方法关键步骤分为如下两个阶段,第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构,使得网络对目标的特征提取具有更强的形变鲁棒性。在区域候选网络使用导向锚框机制,让网络自行学习产生锚框,使得锚框与当前输入特征有更好的契合程度,同时在使用不同数据集进行训练时,模型对不同的数据集也有良好的拟合能力。使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修,使得候选框质量与不同阶段的判别阈值相匹配,进一步提升结果框的精确度。
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种全局多阶段目标跟踪方法。
背景技术
目标跟踪在监控、增强现实、机器人、视频编辑等领域有着广泛的应用。在过去的几十年里,这一领域有过许多进展。视觉目标跟踪是指在连续的视频帧序列中连续定位目标,该目标是在第一帧中被指定的任意目标。由于被跟踪的目标在视频帧序列中可能受光照、形变、遮挡等影响,因此在处理复杂情况下的目标跟踪问题仍旧是具有挑战性的。
目前,利用深度学习进行目标跟踪的算法有许多,其中主流的方向之一是利用孪生网络结构进行目标跟踪。Fully-convolutional siamese networks for objecttracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr.,InECCV Workshops,2016是首创基于孪生网络结构进行目标跟踪的算法,孪生网络的最根本特征如下:使用两个在结构与参数上完全一致的卷积神经网络对跟踪目标与搜索区域(寻找跟踪目标的区域)进行特征提取,并将提取出的跟踪目标特征与搜索区域特征进行相关运算,获得目标可能位置的特征。通过对目标可能位置的特征进行处理,获得最终的被跟踪目标位置与大小。虽然首创孪生网络结构,但该方法的特征提取能力弱,精度上性能低,且不能根据物体的形变改变边界框的比例。发明专利“一种基于孪生网络的目标跟踪方法,公开号:CN110807793A”使用卷积核形状固定的卷积神经网络进行目标的特征提取,且相对于Fully-convolutional siamese networ ks for object tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.T orr.,In ECCV Workshops,2016使用了特征提取能力更强的网络设计。虽然固定形状的传统卷积核具有一定的鲁棒性,包括尺度不变性与旋转不变性,但对目标跟踪任务而言,目标在帧序列中可能存在大的形态变化,以及产生运动模糊与伪影,极端情况下固定形状的卷积核的鲁棒性将会不足。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法,公开号:CN110728697A”使用区域候选网络获得被跟踪目标的位置与包围框,相较于Fully-convoluti onal siamese networks forobject tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,andP.H.Torr.,In ECCV Workshops,2016在精度上有更好的效果,但这样跟踪方法由于存在噪声干扰的问题,同时由于网络结构的限制,在训练时为了划分正负样本只能设定一组判断正负样本的交并比阈值,所以对不同准确度的候选框存在训练效果的差异,无法发挥最好的效果,其在精度上还有提升的空间。Siamese cascaded region proposal networks for real-time visual tracking[C],Fan H,Ling H.,Proceedings of the IEEEConference on C omputer Vision and Pattern Recognition.2019:7952-7961通过加入了“锚框”机制,设定一系列大小位置固定的锚框,让这些锚框去拟合被跟踪物体的实际位置与大小,输出更为精确的被跟踪目标的位置与边界框。但该方法的锚框参数(大小、位置与数量等)并非是通过网络生成获得而是人为设定,设定这些参数会花费一定的时间资源,且无法很好地匹配训练数据中的目标分布与大小,而当使用新的数据就需要重新设计锚框参数。Siamese cascaded regio n proposal networks for real-time visual tracking[C],Fan H,Ling H.,Proceedings of the I EEE Conference on Computer Vision andPattern Recognition.2019:7952-7961由于机制设计的问题,每次的跟踪目标的搜索区域仅在上一帧目标位置的周围而非全局,这样一旦当目标从视频帧中被遮挡或离开视频帧的视野,再重新出现在离最后一次被检测到的位置较远的区域时,将难以被检测到,即该方法的重跟踪能力较差。且当存在多个与被跟踪目标相似的对象时,由于会利用到上一帧的预测结果,会存在错误累积的情况,产生错误跟踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972556.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于数据流架构的稀疏卷积神经网络加速方法及装置
- 下一篇:一种锻压用剪切机