[发明专利]一种基于深度学习的视频目标检测方法有效

申请号：	201811374255.9	申请日：	2018-11-15
公开（公告）号：	CN109583340B	公开（公告）日：	2022-10-14
发明（设计）人：	郑慧诚;罗子泉	申请（专利权）人：	中山大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/25;G06V10/82;G06T7/269;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510260 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的视频目标检测方法，应用于视频目标检测领域。方法利用卷积神经网络进行图像特征的提取，提出了时间‑空间特征提取网络，用于提取视频的空间上下文和时间上下文信息，并将图像特征与时间、空间上下文信息融合，更新骨干网络输出的特征图，最后将所得特征图输入检测网络，得到最终的检测结果，兼顾了目标检测的准确性和实时性。这种方法有效的提升了检测的准确性和实时性。

技术领域

本发明涉及目标检测领域，更具体地，涉及一种基于深度学习的视频目标检测方法。

背景技术

近年来，深度学习在计算机视觉领域取得了前所未有的突破，通过多层神经网络的结构，整合图像的整体信息，从更高、更抽象的层次对图像特征进行表达。当前，基于卷积神经网络(CNN)的深度学习模型被广泛应用在目标检测当中，并被证明具有优于传统手工特征方法的效果。

当前，目标检测方式主要分为两大类：一类是基于手工特征提取的目标检测方法，另一类是基于深度学习特征提取的目标检测方法。典型的手工特征包括了形状、轮廓信息等，也可以是具有统计特性的Haar特征、Hog特征等。这些特征能够在一定程度上描述图像，结合传统的有监督机器学习分类器，在某些任务上能够满足检测需要。然而现有的技术存在以下缺陷：(1)基于人工设计的特征提取方法通常需要相关领域知识或大量统计数据，因而需要极大的研究成本；另外，手工特征的泛化能力较弱，一定程度上影响其准确性。(2)基于深度学习的特征提取方法计算量一般较为巨大，妨碍了实际场景中的应用。(3)当前目标检测研究更为注重静态图像的检测，在视频上仅利用视频的冗余信息，对检测结果进行后处理，或利用光流重新计算特征，没有充分融合视频的时间、空间上下文信息，因此兼顾准确率和实时性的视频目标检测仍是目前相关研究和应用的重要挑战。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种更加准确和实时的基于深度学习的视频目标检测方法。

为解决上述技术问题，本发明的技术方案如下：一种更加准确和实时的基于深度学习的视频目标检测方法，包括以下步骤：

S1：归一化训练图像尺寸，以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数；

S2：将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数；

S3：将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。

本发明利用骨干网络进行图像特征的提取，主要通过时间-空间特征提取网络，用于提取视频的空间上下文和时间上下文信息，并将图像特征与时间、空间上下文信息融合，更新骨干网络输出的特征图，最后将所得特征图输入检测网络，得到最终的检测结果。

优选地，步骤S1中的训练图像统一归一化为同样像素大小的图像。

优选地，步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为：

S21：选取同一视频相距n帧内的两帧图像作为训练样本，将两帧图像中的前一帧作为参考帧I_k，后一帧作为预测帧I_i；

S22：将参考帧I_k作为输入，经过骨干网络N_feat，提取图像特征，输出对应的参考帧特征图f_k，其公式表示如下：

f_k＝N_feat(I_k)