[发明专利]一种基于多模态单流记忆网络的单目标跟踪方法在审
| 申请号: | 202310197848.7 | 申请日: | 2023-03-03 |
| 公开(公告)号: | CN116402849A | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 张建伟;王景超;张焕龙;梁树军;蔡增玉;孙海燕;张之琛;张梦雅 | 申请(专利权)人: | 郑州轻工业大学;许昌职业技术学院 |
| 主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/08;G06V10/40;G06N3/0464 |
| 代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
| 地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态单流 记忆 网络 目标 跟踪 方法 | ||
本发明提出了一种基于多模态单流记忆网络的单目标跟踪方法,步骤为:将描述目标的文本输入语言模型提取描述感兴趣目标的语言特征;提取记忆器中的目标样本得到记忆特征,将语言特征、记忆特征和搜索区域特征输入多模态注意力网络生成多模态综合特征;使用预测头对多模态综合特征中的搜索区域特征进行解析得到跟踪结果;使用基于语言的跟踪结果对跟踪结果进行评估,将满足要求的跟踪结果存入记忆器。本发明基于自注意力机制同时利用视觉信息和文本信息可以获得更加完善的跟踪模型,从而提高对于目标变化的适应能力。本发明结合了多模态学习和单流网络结构的优势,利用文本信息的稳定性来弥补视觉信息的脆弱性,从而提升了跟踪的精度。
技术领域
本发明涉及人工智能中单目标跟踪的技术领域,尤其涉及一种基于多模态单流记忆网络的单目标跟踪方法。
背景技术
目标跟踪是计算机视觉中的一项基本任务,在智能监控、无人机等领域有着广泛的应用。给定一个感兴趣的对象,目标跟踪的目的是在后续帧中准确定位它。随着深度学习的普及,目标跟踪已经取得了重大进展。然而,在面对复杂的目标和背景变化时,跟踪器的性能往往令人失望。
在目标跟踪中,目标建模是最基本也是最重要的部分之一。目标模型越完善,跟踪目标越准确。目前流行的大多数基于孪生的跟踪框架都依赖于第一帧中给出的信息来构建目标模型,但它是不稳定的,随着目标的外观不断变化,原来的目标模型将不再适用于新的目标状态。
为了解决这一问题,许多研究者使用记忆网络,使用跟踪过程中收集的样本来细化目标模型。然而,这些跟踪器仅根据视觉信息对目标的外观进行建模,当外观发生剧烈变化时,很容易漂移。那么,是否存在一种新的方法来构建具有丰富语义信息的目标模型,而不仅仅是具有外观信息的目标模型。
人类生活的世界是混乱而复杂的。人类通过组合和吸收不同模式(视觉、听觉、嗅觉、触觉等)的信息来理解和感知世界。仅仅依靠视觉信息是理解物体的不完全方法。如果一台计算机想要像人一样学习和思考,它必须能够处理多种模式的信息。近年来,多模态学习越来越多地应用于计算机视觉任务中。最常用的方法是将语言信息引入目标检测和语义分割,并取得了出色的效果。语言是一种高级表示,它可以弥补视觉表示中语义信息的不足,并提供了较强的对同类目标和相似外观进行分离的先验性。
申请号为202210152336.4的发明专利公开了一种基于混合注意力机制的端到端单目标跟踪方法,构建一个跟踪框架MixFormer用于目标跟踪,跟踪框架MixFormer为一个端到端训练的Transformer跟踪网络,包括一个主干网络和一个跟踪头,基于混合注意力模块MAM的特征提取器来同时进行特征提取与目标信息融合,首先将目标帧和测试帧的拼接向量分割开来并且分别Reshape成一个2D向量,然后过一个多头注意力函数,将产生的两个2D向量拼接并且过一个线性层即可得到融合了模板信息的测试帧特征;通过两个简单的回归头和分类头,得到跟踪目标框并进一步通过在线跟踪结果补充更新跟踪标签,得到了一个简洁清晰的跟踪框架,能有效地提升跟踪准确性。但是,MixFormer是完全基于视觉信息进行跟踪的。由于视觉信息的多变性,MixFormer在面对目标视觉形态发生较大变化时会造成跟踪失败。而且其使用了多个模板特征,明显地增加了计算量,影响了模型的跟踪速度。
发明内容
针对现有根据视觉信息进行目标跟踪的方法容易随着外观变化跟踪精度降低的技术问题,本发明提出一种基于多模态单流记忆网络的单目标跟踪方法,将多模态学习引入到跟踪任务当中,利用文本信息中稳定的语义信息来弥补视觉信息中外观特征的不稳定性,有效地提高了跟踪的鲁棒性。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于多模态单流记忆网络的单目标跟踪方法,其步骤如下:
步骤一:使用矩形框从需要跟踪的视频的第一帧图片中选取需要跟踪的目标,然后根据矩形框裁剪出目标区域作为目标样本存入记忆器中;
步骤二:获取描述目标的文本,将文本输入语言模型获得语言特征TL;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学;许昌职业技术学院,未经郑州轻工业大学;许昌职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310197848.7/2.html,转载请声明来源钻瓜专利网。





