[发明专利]基于动态记忆和运动感知的目标检测方法及系统有效

申请号：	201811028891.6	申请日：	2018-09-05
公开（公告）号：	CN109191498B	公开（公告）日：	2021-04-02
发明（设计）人：	廖胜才;刘威	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06T7/246	分类号：	G06T7/246;G06N3/04
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态记忆运动感知目标检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机视觉技术领域，具体涉及一种基于动态记忆和运动感知的目标检测方法及装置，旨在解决因视频虚检而引起的目标检测准确率较低的问题。该方法包括：利用神经网络获取目标视频中当前帧图像对应的特征图，并且获取目标候选框；根据分辨率最大的特征图和前一帧图像对应的动态记忆特征图，获取当前帧图像对应的动态记忆特征图；根据当前帧图像对应的动态记忆特征图和分辨率最大的特征图，获取当前帧的运动特征图；将分辨率最大的特征图与当前帧图像的运动特征图进行特征融合得到融合特征图；根据融合特征图获取每个目标候选框的融合特征；利用该融合特征进行目标检测。基于上述方法可以得到更为鲁棒和稳定的目标检测结果。

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于动态记忆和运动感知的目标检测方法及系统。

背景技术

目标检测的任务是找出图像或视频中感兴趣的物体，同时检测出它们的位置和大小，是计算机视觉领域的核心问题之一。随着卷积神经网络的应用和发展，基于单帧图像的目标检测已经取得了很大的进步，但是基于视频的目标检测还存在一定的特征困难，比如运动模糊、视频散焦等问题。

目前，主要有两种方式来抑制视频目标检测中的视频虚检情况。第一种方式是利用检测器对视频中每帧图像单独进行检测，然后利用启发式算法对每帧检测结果进行后处理，得到整个视频序列的检测结果，然而这种方式并不能提升单帧图像的检测效果，并且在单帧图像检测结果不理想时，视频检测效果也不理想。第二种方式是采用融合相邻视频帧特征图的方式来增强当前帧的特征图，并且利用增强的特征图进行检测。然而这种方式需要额外的网络架构如光流网络、递归神经网络，因此大大提升了计算负担，难以满足在真实场景下的应用。此外，这些额外的网络架构需要有监督地进行学习，不能显式地构建运动信息。

相应地，本领域需要一种新的目标检测方法及系统来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决因视频虚检而引起的目标检测准确率较低的问题，本发明的一方面，提供了一种基于动态记忆和运动感知的目标检测方法，包括：

利用预先构建的神经网络获取目标视频中当前帧图像对应的多个不同分辨率的特征图，并且获取每个所述特征图对应的目标候选框；

根据所述分辨率最大的特征图和预先获取的前一帧图像对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图；

根据所述当前帧图像对应的动态记忆特征图和所述分辨率最大的特征图，获取所述当前帧图像的运动特征图；

将所述分辨率最大的特征图与所述运动特征图进行特征融合得到融合特征图；

根据所述融合特征图获取每个所述目标候选框的融合特征；

利用所述神经网络并且根据预设的目标类别与所述融合特征，预测相应目标候选框对应的目标类别以及所述目标候选框在当前帧图像中对应的位置信息。

进一步地，本发明提供的一个优选技术方案为

在“所述分辨率最大的特征图和预先获取的前一帧对应的所述目标视频的动态记忆特征图，获取当前帧对应的动态记忆特征图”的步骤之前，所述方法还包括：

按照下式所示的方法对所述分辨率最大的特征图进行增强处理：