[发明专利]一种基于深度学习的视频目标检测方法与装置在审

申请号：	202010471931.5	申请日：	2020-05-29
公开（公告）号：	CN111832393A	公开（公告）日：	2020-10-27
发明（设计）人：	杨鹏;闵克祥;何大治;纪雯	申请（专利权）人：	东南大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/36;G06N3/04
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	孟红梅
地址：	211189 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频目标检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的视频目标检测方法与装置。本发明在提取帧图像特征后，利用改进的SeqtoSeq模型提取视频中的时序信息，并利用该信息提高帧图像的特征质量，在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后，对视频中的目标关系进行建模，从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系，并通过目标关系对候选框特征进行重新编码，以此丰富候选框的特征表示。本发明不仅能够提高视频目标检测的检测精度，同时还具有优良的鲁棒性。

技术领域

本发明涉及一种基于深度学习的视频目标检测方法与装置，利用视频中的时序信息对视频帧特征进行优化，通过目标关系对候选框特征进行重新编码，能够有效提高视频目标检测算法的检测性能和鲁棒性，属于计算机视觉处理技术领域。

背景技术

随着计算机技术的进步和互联网技术的发展，计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中，如智慧交通系统，无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此，基于视频的目标检测的研究有着更大的应用需求。

传统的视频目标检测算法主要分为两种：基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图，将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题，但是如果想要得到较高的检测精度，需要对前后大量的帧图像进行处理，将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等，基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像，然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet，最后对tubelet中的候选框重新评分，以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量，但是难以克服长时期遮挡等帧图像恶化问题。

深度学习是计算机视觉领域一个新的重要研究方向。其基本原理是通过采用多个变换阶段对样本数据的特征进行描述，进而得到数据的特征表示。以图像为例，深度学习通过组合低层次的样本图像特征，进而形成更加抽象的图像高层表示或特征属性。目前深度学习已经在模式识别、语音识别、图像分类等应用中取得了令人瞩目的成就。应用于视频目标检测领域中，深度学习中的循环神经网络模型能够有效处理序列特征，可以充分捕捉到潜藏在视频帧序列中的时序信息，对视频目标检测的检测性能有着极大的提升。因此，将深度学习应用到视频目标检测领域以解决传统方法难以克服的目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低的问题，是本发明的主要研究课题。

发明内容

发明目的：针对现有技术中存在的问题和不足，本发明提供一种基于深度学习的视频目标检测方法与装置，充分利用视频中的时序信息以及视频中目标间的语义关系，有效提高视频目标检测算法的鲁棒性和检测精度。

技术方案：为实现上述发明目的，本发明所提出的一种基于深度学习的视频目标检测方法，该方法首先利用视频中的时序信息对视频帧特征进行优化，有效改善因帧图像恶化而导致的检测精度下降问题，提高了视频目标检测算法的鲁棒性，然后对视频中的目标关系进行建模，并通过目标关系对候选框特征进行重新编码，以此丰富候选框的特征表示，提高模型对视频中目标的检测能力。该方法主要包括如下步骤：

(1)利用深度卷积神经网络提取视频帧图像的CNN特征；

(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化；所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程，以SeqtoSeq作为基础模型并增加了时空注意力机制，提取视频中丰富的时序信息以提高视频帧的特征质量；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010471931.5/2.html，转载请声明来源钻瓜专利网。

上一篇：图像清晰度还原方法及装置、图像拍摄方法及装置
下一篇：一种新型铝拉丝工艺

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的视频目标检测方法与装置在审

专利文献下载