[发明专利]基于多特征提取和多任务融合的目标检测算法在审
申请号: | 201711038002.X | 申请日: | 2017-10-30 |
公开(公告)号: | CN107886117A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 娄英欣;郭晓强;王琳;夏治平;姜竹青;门爱东 | 申请(专利权)人: | 国家新闻出版广电总局广播科学研究院;北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32;G06K9/34 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 100886 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 提取 任务 融合 目标 检测 算法 | ||
技术领域
本发明属于目标检测技术领域,尤其是一种基于多特征提取和多任务融合的目标检测算法。
背景技术
目标检测的主要任务是对图像序列中的目标物体进行自动检测,包括分类和定位。目前流行的目标检测算法,首先在一张图片上生成1K-2K的候选框,然后对于每个候选框使用CNN卷积神经网络提取特征,其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类,最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征,通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配,从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性,由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易,传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到,预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练,然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练,从而实现通过CNN网络提取图片特征。
深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构,该框架在ILSVRC 2012比赛中取得了非常好的成绩,此后,卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构,包括5个卷积层和3个全连接层,将当时最好算法的错误率减半,其证明了CNN在复杂模型下的有效性,且GPU使得训练在可接受的时间范围内得到结果。在2014年,Christian Szegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名,与AlexNet不同的是:GoogleNet的深度(层数)更深,宽度(层核或者神经元数)更宽。同年,Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名,与AlexNet不同的是:VGG-Net使用更多的层,通常有16-19层。在2015年,Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名,该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注;同时,工业界加入深度学习的研究中来,百度、google、facebook纷纷建立深度学习实验室,通过深度学习,进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法,这些算法也取得了良好的效果,但是仍有许多方面有待改进,如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。
发明内容
本发明的目地在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的基于多特征提取和多任务融合的目标检测算法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于多特征提取和多任务融合的目标检测算法,包括以下步骤:
步骤1、基于深度学习卷积神经网络架构提取图像特征,提取多层卷积输出结果形成多特征图,并在多特征图上提取不同可视野的目标感兴趣区域,对提取的目标感兴趣区域进行特征连接;
步骤2、对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测;
步骤3、上述结果通过最后的全连接层后,通过组合分类定位损失函数对图像特征进行分类和回归定位,得到最终目标检测的结果。
所述深度学习卷积神经网络架构为VGG-16卷积神经网络架构。
所述步骤1的具体实现方法包括以下步骤:
⑴将带有物体真实包围框的图片输入到目标检测卷积神经网络架构中,使用Caffe框架提取图像并通过卷积神经网络输出的不同层的图像特征;
⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图,第一个卷积层输出卷积特征最大池化,最后一个卷基层输出卷积特征反卷积,使两个卷积层的输出特征尺寸与中间卷积层的输出特征尺寸大小一致,连接多层卷积层的输出图像特征形成多特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家新闻出版广电总局广播科学研究院;北京邮电大学,未经国家新闻出版广电总局广播科学研究院;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711038002.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:翘曲板材搬送物流系统
- 下一篇:一种液晶基板吸附装置的吸盘组件