[发明专利]基于多尺度ROI特征的双二次池化细粒度图像分类方法有效
申请号: | 201910619662.X | 申请日: | 2019-07-10 |
公开(公告)号: | CN110533024B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 谭敏;俞俊;王贵军 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 roi 特征 二次 细粒度 图像 分类 方法 | ||
本发明公开了基于多尺度ROI特征的双二次池化细粒度图像分类方法。本发明如下步骤:1.使用Resnet‑34网络提取图像的深度视觉特征,并基于该特征生成掩膜;将Mask与视觉特征图进行点乘,构建图像的ROI特征;2.选取Resnet‑34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征;3.利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器;4.针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别。本发明在CUB‑200‑2011、Stanford Cars、FGVC‑Aircraft三个数据集上取得了当前领先的准确率。
技术领域
本发明涉及细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)领域,尤其涉及了一种基于端到端训练的深度神经网络的图像分类方法。该方法在不使用标注框、部位标注等额外信息的情况下,自动定位图片中目标主体位置,提取出具有判别性的多尺度特征,并利用特征融合提升细粒度图像分类的准确率。
背景技术
细粒度视觉分类是一项经典的计算机视觉任务,与传统分类任务不同,细粒度视觉分类目的在于区分同一个物种下不同的子类别,由于不同子类别间的差异细微,同一子类别下的图片又由于光线、背景遮挡等因素的干扰,使得细粒度视觉分类成为一项极具挑战的任务。在实际生活中,识别不同物种的子类别也有着巨大的应用需求。例如,在生态保护中,有效地识别出不同种类的生物,是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
从大的发展趋势来看,细粒度视觉分类方法经历了从手工特征工程到多阶段方法再到端到端(End to End)学习的发展过程。由于细粒度分类任务存在较大的类内差异和细微的类间差异,导致传统的人工特征工程无法达到理想效果。随着近年来深度学习的发展,给细粒度分类任务带来了重大的机遇,大量深度神经网络模型的提出促使这一领域得到了快速的发展。
成功实现细粒度图像分类的关键在于两个方面:一方面是要定位目标关键区域,降低背景信息的影响;另一方面是提取出具有判别性的特征进行分类,区分出不同种类的细微差异。在目标区域的定位上,可以划分为基于强监督和基于无监督的目标定位。基于强监督信息的方法往往是使用标注框、部位标注这些额外标注信息来裁剪图片中的目标主体,而这些人工标注往往费时费力,难以获取,所以使得这一类方法在实际应用中并不高效。而基于无监督的方法通过分析卷积特征的特征响应值、使用注意力机制等方法自动关注图片中目标的位置,提取出感兴趣区域(Region of Interest,ROI)的特征,因此基于无监督的方法在实际中更加具有应用价值。在提取判别性特征方面,研究者们提出了许多有效的特征融合方式,其中基于双线性池化(Bilinear Pooling)的方法通过使用矩阵外积进行特征交互,以其显著的效果得到了广泛的应用和拓展。
这种基于定位-分类的方法借鉴了人类进行细粒度分类的过程,研究相对充分,是分类任务中主流的方法。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于多尺度ROI特征的双二次池化的细粒度图像分类方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、使用Resnet-34网络提取图像的深度视觉特征,并基于该特征生成掩膜(Mask);将Mask与视觉特征图进行点乘,构建图像的ROI特征;
步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征;
步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910619662.X/2.html,转载请声明来源钻瓜专利网。