[发明专利]基于深度学习的细粒度图像识别方法和装置在审
申请号: | 201911193231.8 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111027605A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 宋波 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 孙黎生 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 细粒度 图像 识别 方法 装置 | ||
本申请公开了一种基于深度学习的细粒度图像识别方法和装置,方法通过深度卷积神经网络对ImageNet数据库上的预训练模型进行加载和训练,训练过程中先对深度卷积神经网络的全连接层进行训练,将全连接层的参数进行优化后再训练所述深度卷积网络的其余层,从而得到优化后的细粒度图像识别模型,最后通过YOLO目标检测将待检的目标图像输入到深度卷积神经网络中,生成该目标图像所对应的检测框,由所述细粒度图像识别模型的置信度对所得到的检测框进行阈值处理,并输出图像识别结果。本发明可以很好的避免背景错误,避免了长时间的图像候选区域提取过程,提高了检测速度,可学到物体的泛化特征,迁移到其他领域,在准确率方面也得以提升。
技术领域
本申请涉及图像识别技术领域,特别是涉及一种基于深度学习的细粒度图像识别方法和装置。
背景技术
现实生活中,传统的目标检测流程可以描述为:目标特征提取、目标识别、目标定位。常用的图像特征有SIFT、HOG、SURF、LBP等,以这些特征对目标进行识别,再结合相应的策略进行目标定位。传统的目标检测方法取得了一些成果,但由于人工设计特征泛化能力差,无法很好地应对复杂的自然场景。
如今,基于深度学习的目标检测与识别逐渐成为了主流,这一类方法的主要流程为:图像的深度特征提取一基于深度神经网络的目标识别与定位。按照流程可分成两大类:
(1)、二阶段(Two-stage)方法,如R-CNN,SPP-Net,FastR-CNN,Faster R-CNN等;
(2)、一阶段(One-stage)方法,如YOLO系列等。
Girshick提出了R-CNN用于目标检测和识别,其算法思想可概括为:使用深度学习提取图像的特征,以提高检测和识别的精度,采用区域建议以减少了候选区域的数量;加入了边界回归策略进一步提高了检测的精度。SPP-Net在R-CNN的基础上做了较大的改进,采用金字塔池化取消了图像的归一化过程,解决了图像变形导致的信息丢失以及存储问题;采用只对原图提取一次特征的思想,有效解决了卷积层的重复计算问题,使得速度比R-CNN提高了24-102倍。Fast R-CNN在R-CNN的基础上做了一些实质性的改进:采用共享卷积层,即将整张图片送入卷积神经网络进行特征提取,在卷积层输出的特征图上提取候选区域,使得特征能够共享,极大的减少了计算的参数,节省了计算力;用SOFTMAX函数替代R-CNN的SVM进行分类,训练数据在GPU内存里直接进入损失层,这样候选区域的前几层特征不需要再重复计算且不再需要把大量数据存储到硬盘上,不仅提升了训练速度还节省了存储空间。进一步地,Fast R-CNN设计了提取候选区域的网络RPN(Region Proposal Network),将候选框提取合并到深度网络中,避免了费时的图像候选区域提取过程,大大提高了检测速度;另外将产生建议窗口的卷积神经网络和目标检测的卷积神经网络特征共享,使得图片通过一次卷积,既可以提取出特征,又可以生成候选区域。目标检测模型的主要性能指标是检测准确度和速度,在检测准确度方面,二阶段方法己经取得不错的成绩,但在检测速度上还有些差强人意。
与之相比,一阶段方法由于不需要额外生成候选区域阶段,直接通过回归的思想得到物体的类别概率和位置坐标值,数据单次通过就可以得到最终的检测结果,因此天然上有着更快的检测速度优势。
以往的图像识别算法通常针对通用目标识别,这些目标之间的类间差距大,而对于细粒度类别来说类间差距很小,很容易受到外界因素的影响,诸如光照、姿态、背景等都会导致同一子类的对象存在形态上的差异,直接使用传统的网络很难捕捉到这些子类间的细粒度特征,导致识别效果有限。而且,粒度图像识别方法中有一部分需要物体和部位级别的标注信息才能获得不错的效果,现实中获得这些标注往往需要昂贵的代价,而现在的图像识别方法中都希望只使用图像级别的标注。以往的细粒度图像识别算法中无论是否使用额外的标注信息,其关注点都在提取重要的局部信息,卷积神经网络的作用只是一个特征提取器,特征提取与类别分类是一个分散的过程,这失去了卷积神经网络模型在粗粒度图像识别时端到端训练和优化的优势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911193231.8/2.html,转载请声明来源钻瓜专利网。