[发明专利]一种基于机器学习的视频目标检测方法在审
申请号: | 201710985003.9 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107705324A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 胡海峰;张运鸿;孙永丞;张承灏;王焕宇 | 申请(专利权)人: | 中山大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06K9/62;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 视频 目标 检测 方法 | ||
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于机器学习的视频目标检测方法。
背景技术
科技的发展使得摄像设备得到了普及,应运而生海量的图像数据、视频数据,其中视频数据也受到了广泛的关注,许多领域都需要用到目标的检测和追踪,例如监控视频,无人机追踪等。在这些应用中,通常是先给定一个目标候选框,然后进行追踪,并不能自动识别出需要跟踪的目标。特别地,如果目标出现在多个视频中,在海量视频中寻找目标并追踪对于人力来说是不适用的,这些跟踪系统也就不适用了。因此,解决跟踪目标的自动识别能够大大提升目标跟踪的应用领域,使其更广泛的为人类服务。
目标的检测和追踪是计算机视觉领域一直在探索的课题,很多学者在这方面做出过突出贡献,但是通常二者是两个独立的研究课题。当前主流的基于深度学习的目标检测方法主要分为两个部分,第一部分是R Girshick提出的以R-CNN为代表的结合区域管道和CNN分类的目标检测框架,其中CNN目标检测框架包括R-CNN,SPP-NET,Fast R-CNN,Faster R-CNN。第二部分是以YOLO为代表的将目标检测转换为回归问题的目标检测框架,与之不一样的SSD舍弃随机假设目标框、小管道候选、像素重采样、特征重采样等步骤。同时,目标检测算法的最新进展有基于多特征融合和使用循环神经网络的方法。当前基于深度学习的追踪方法主要有四个方面。一是利用辅助图片数据预训练深度模型,在线跟踪时微调,这方面的代表作品是王乃岩博士的DLT和SO-DLT。二是利用现有大规模分类数据集预训练的CNN分类网络提取特征,代表作品是利用VGG16和VGG19网络。三是利用跟踪序列预训练,在线跟踪时微调,代表作品是MDNet。四是利用递归神经网络进行目标跟踪的新思路,代表作品是RTT。
上述方法部分是进行静态图像的目标检测,部分是进行视频目标检测,并且视频目标追踪中用到的目标检测方法也是为了提高跟踪效果的,并没有实现自动识别并进行跟踪,因此无法应用到跟踪目标的自动识别和跟踪上。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于机器学习的视频目标检测方法,该方法基于机器学习和光流追踪的视频目标检测方法,本方法将待追踪的视频序列作为输入,先通过深度网络及检测框架进行单帧图片的目标检测,在使用基于融合了光流信息,深度特征和HOG描述符的追踪器,对已检测出的目标进行持续的追踪。
为了达到上述目的,本发明采用的技术方案是:
一种基于深度学习和目标检测的目标追踪算法,包括如下步骤:
(1)对于待跟踪的视频,利用SSD目标检测算法得到待跟踪的目标检测框,预设默认框的坐标,通过网络的学习训练,与真实框的损失计算,逐渐回归到接近真实尺度。对于每一张标记的图片分别利用光流跟踪和全卷积神经网络独立地进行追踪。
对于光流跟踪算法,对于给出检测框的目标,均匀采取一百个点作为追踪点,再将下一帧的点往后计算,得到原先帧的点,当如果该点的与原点的欧式距离小于一定阈值则保留下来,作为追踪点。通过获得的追踪点,计算标定框下一帧的位置。
同时,对于全连接神经网络,采用VGG16模型,13个卷积层,3个全连接层。使用主成分分析法提取其主要特征,分别提取卷积层高层和底层的特征,选出和当前跟踪目标最相关的特征图管道,分别输入到两个两层卷积的卷积网络SNet和GNet,得到两个预测的热图,并根据是否有错误选择决定使用哪个热图生成最终的跟踪结果。
(2)对光流算法检测出的结果,和FCNT检测的结果,提取其HOG特征,通过SVM将两个结果进行有效性的判断,最终选出跟踪目标的准确位置。
本发明基于机器学习和深度卷积神经网络方法,并且通过探索深度特征层的空间信息和光流预测的时间信息,提出了一种新的基于机器学习的视频目标检测方法,它能够有效地自动识别跟踪目标,显著提高了跟踪的准确率。
优选的,步骤(1)中,对于待跟踪的视频进行SSD目标检测,省略传统的一些列过程,时间上有了很大的提高并且准确率上也是有所提升。整合每一层卷积层输出的预测信息(包括类别和四个位置偏移量),没有丢掉细小的信息。
优选的,步骤(2)中,光流跟踪算法将一百个点计算前向光流预测下一帧的点,再将下一帧的点往后计算,得到原先帧的点,具体的判决方法是当如果该点的与原点的欧式距离小于一定阈值则保留下来,作为追踪点。通过获得的追踪点,计算标定框下一帧的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710985003.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种栅极驱动电路
- 下一篇:调节色彩参数的方法及系统