[发明专利]基于级联卷积神经网络的目标检测方法在审
申请号: | 201710899578.9 | 申请日: | 2017-09-28 |
公开(公告)号: | CN107590489A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 郭亚婧;郭晓强;周芸;姜竹青;门爱东 | 申请(专利权)人: | 国家新闻出版广电总局广播科学研究院;北京邮电大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06K9/62 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 100886 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 级联 卷积 神经网络 目标 检测 方法 | ||
技术领域
本发明属于视觉目标检测技术领域,尤其是一种基于级联卷积神经网络的目标检测方法。
背景技术
在人类每天感知到的信息中,80%以上来源于视觉。图像作为多媒体的重要组成部分,承载着直观而又丰富的信息,因此图像处理技术是多媒体技术领域的重要组成部分。计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等行为,并进一步处理成为更适合人眼观察或传送给仪器检测的图像。目标检测作为计算机视觉的重要研究课题之一,被广泛应用于视频监控、自动驾驶、增强现实和智能交互等各个领域,具有广阔的应用前景。
目标检测技术是通过提取图像或视频中目标的特征进行分析,将目标识别出来,并以包围框(Bounding Box)的形式将其标示出,进一步去完成跟踪、理解等后续任务。目标检测作为计算机视觉的基础任务,其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高级任务的性能。然而目标通常具有不同的形态、颜色、光亮和遮挡等多变因素,目标所处的场所环境也缤纷复杂,这些因素使得基于计算机视觉的目标检测面临着巨大的挑战。
在深度学习广泛应用于计算机视觉领域之前,基于滑动窗的DPM模型(P.Felzenszwalb,R.Girshick,D.McAllester,and D.Ramanan,“Object detection with discriminatively trainedpart-based models,”TPAMI,vol.32,no.9,pp.1627–1645,2010)一直是主流方法,其采用复杂的人工特征提取方法,比如方向梯度直方图(HOG)、尺度不变特征转换(SIFT)、局部二值模式特征(LBP)等,来获得与目标有关的信息表达,并在所提取的特征信息上训练分类器和回归器从而实现目标检测。随着计算机计算能力的大幅提高和大规模数据集的产生,深度学习应运而生,也使得目标检测技术取得了十足的进步。目前流行的目标检测算法均使用卷积神经网络来进行特征提取。卷积神经网络广泛应用于计算机视觉领域主要源于2012年Krizhevsky等人提出的AlexNet(A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet classification with deep convolutional neural networks,”pp.1097–1105,2012)在ILSVRC 2012竞赛中取得冠军,AlexNet成为卷积神经网络在图像分类上的经典模型。AlexNet由5层卷积层和3层全连接层构成,卷积层主要用于提取目标特征,全连接层用于对目标的分类,这一模型的精度显著高于当时基于传统手工特征的算法。之后Girshick等人将卷积神经网络应用于目标检测技术,提出了经典的R-CNN算法(R.Girshick,J.Donahue,T.Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”pp.580–587,2014)。R-CNN算法虽然在检测精度上表现优异,但是候选框的产生需要耗费大量时间。Ren等人为了提高检测速度对R-CNN做出了改进提出了Faster R-CNN算法(S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards real-time object detection with region proposal networks,”inNIPS,2015,pp.91–99),使得目标候选框也能够由卷积神经网络生成。为了进一步提高检测速度,实现在实时视频上的目标检测,Redmon等人提出一种基于单一卷积神经网络的目标检测算法YOLO(J.Redmon,S.Divvala,R.Girshick,and A.Farhadi,“You only look once:Unified,real-time object detection,”arXiv preprint arXiv:1506.02640,2015)。对于一张输入图像,YOLO可以直接输出目标类别置信度以及目标位置,像人眼一样,能够做到看一眼图像就知道目标是什么以及目标在哪,YOLO等算法的出现使得实时目标检测成为可能,并将目标检测的实际应用向前推动了一大步。然而单一网络的目标检测模型在检测精度上依然逊于基于区域候选框的目标检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家新闻出版广电总局广播科学研究院;北京邮电大学,未经国家新闻出版广电总局广播科学研究院;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710899578.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种竹筷抛光烘干一体机
- 下一篇:彩艺喷图实木地板的制作方法