[发明专利]一种基于深度时空孪生网络的目标跟踪方法在审
申请号: | 202110563641.8 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113298142A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 韩光;王福祥;肖峣;刘旭辉 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 时空 孪生 网络 目标 跟踪 方法 | ||
本发明公开了一种基于深度时空孪生网络的目标跟踪方法,所述方法包括获取预先生成的候选框,所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成;将获取的候选框输入ST‑LSTM和预测网络模块进行置信度计算,选取置信度得分最高的候选框;将置信度得分最高的候选框输入细化回归网络模块,通过相关滤波细化目标位置,获得跟踪结果。本发明一方面通过孪生网络获得视频帧中目标的表观信息,另一方面通过ST‑LSTM获得目标的时序信息,将其融合并通过相关滤波进行细化回归,三者共同确定跟踪结果,提升了目标跟踪的准确性和鲁棒性。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于深度时空孪生网络的目标跟踪方法。
背景技术
目标跟踪是计算机视觉中的重要研究课题,并且在过去的几十年中引起了极大的关注。尽管已经付出了很多努力并且最近取得了一些进展,但是由于内在因素(例如目标变形和快速运动)和外在因素(例如遮挡和背景杂波),它仍然是一项艰巨的任务。强大的视觉跟踪算法在视觉监视、人机交互、安全和防御、视频编辑等方面具有巨大的潜在应用。
不同于检测、识别等视觉领域深度学习一统天下的趋势,深度学习在目标跟踪领域的应用并非一帆风顺。其主要问题在于训练数据的缺失:深度模型的魔力之一来自于对大量标注训练数据的有效学习,而目标跟踪仅仅提供第一帧的bounding-box作为训练数据。这种情况下,在跟踪开始针对当前目标从头训练一个深度模型困难重重。
发明内容
本发明的目的是提供一种基于深度时空孪生网络的目标跟踪方法,提升了目标跟踪的准确性和鲁棒性。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种基于深度时空孪生网络的目标跟踪方法,包括:
获取预先生成的候选框,所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成;
将获取的候选框输入ST-LSTM和预测网络模块进行置信度计算,选取置信度得分最高的候选框;
将置信度得分最高的候选框输入细化回归网络模块,通过相关滤波细化目标位置,获得跟踪结果。
进一步地,所述孪生网络模块包括:
上支路模块,用于使用卷积神经网络提取模板帧的特征,获得模板帧特征图;
下支路模块,用于使用卷积神经网络提取搜索帧的特征,获得搜索帧特征图;
处理模块,对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图,根据响应图生成候选框。
进一步地,所述卷积神经网络包括5个卷积层和3个最大池化层,5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3,最大池化层池化核为2×2。
进一步地,所述ST-LSTM和预测网络模块包括预训练的ST-LSTM网络与预测网络;
所述ST-LSTM网络用于对孪生网络模块中的目标信息进行收集,将历史信息与当前信息进行融合,获得具有历史感知的目标信息;
所述预测网络用于根据目标信息预生成多个区域提案中的候选者排名,输出候选框的得分。
进一步地,所述预测网络包括三个全连接层,其中两个全连接层包括512个节点,剩余一个全连接层的输出为候选框的得分。
进一步地,所述细化回归网络模块包括相关滤波层,所述相关滤波层用于处理根据候选框得分对其进行筛选后的候选框获得响应图,通过响应图细化搜索帧上的估计位置,回归跟踪结果。
进一步地,所述相关滤波层包括两个分别带有ReLU和LRN的卷积层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110563641.8/2.html,转载请声明来源钻瓜专利网。