[发明专利]多分支神经网络模型的弱监督细粒度图像分类方法有效
申请号: | 201911394387.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111178432B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 边小勇;江沛龄;费雄君;丁胜;张晓龙;李波 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/084 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430081 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分支 神经网络 模型 监督 细粒度 图像 分类 方法 | ||
本发明公开了一种多分支神经网络模型的弱监督细粒度图像分类方法。其技术方案是:首先将细粒度图像数据集按比例随机划分成训练集和测试集;接着利用局部区域定位网络定位有潜在语义信息的局部区域;将原图像和定位后的局部区域分别输入到可变形卷积的残差网络和旋转不变编码的方向响应网络,构成三个分支的特征网络,分别进行训练,三个分支分别基于交叉熵损失进行后向传播学习。最后,组合分支内损失和分支间损失优化整个网络,对测试集进行分类预测。本发明方法减少因姿态、视角和背景干扰等诸多变化对分类结果的负面影响,在细粒度图像分类任务上取得了更好的效果。
技术领域
本发明属于细粒度图像分类领域,特别是涉及一种多分支神经网络模型的弱监督细粒度图像分类方法。
背景技术
细粒度图像分类问题是计算机视觉领域的重要分支,在军用和民用领域都具有重要的意义,其目标是对属于同一基础类别的图像(例如鸟类、狗类、飞机类等)进行更加细致的子类划分。相较于传统的图像分类任务,细粒度图像类间差异更加细微,往往是只能借助微小的局部差异才能区分出不同的类别。同时又因物体存在姿态、视角、遮挡和背景干扰等诸多变化,导致其类内差异巨大,这些因素都给细粒度图像分类带来极大困难。
早期的细粒度图像分类研究大多是基于人工特征的算法,首先借助于标注框完成对前景对象的检测,减少背景噪声的干扰。然后通过部位标注信息(如:头,喙,翅膀)学习部位特征,对部位特征输入到分类网络中得到图像类别的预测。然而由于人工标注的成本较高,且描述主观性强,制约了算法的实用性。
目前,基于深度学习的细粒度图像分类方法研究得到快速发展,具体可分为四个方面:1)利用常规图像分类网络的微调;2)部位检测和对齐;3)细粒度特征学习;4)基于视觉注意力机制的方法。其中有代表性的工作有:Lin等人发表的《细粒度视觉识别的双线性CNN模型》,国际计算机视觉会议,2015,pp.1449-1457(《Bilinear CNN models for fine-grained visual recognition》(International Conference on Computer Vision,2015,pp.1449-1457))。该方法使用VGG-D(Visual Geometry Group-D)和VGG-M(VisualGeometry Group-M)两个网络作为基础网络,并组合它们的输出特征进行分类,端对端的训练过程无需人工标注信息,具有弱监督性。但由于采用结构简单的卷积神经网络,因此特征提取不充分。近年来,从部位检测和细粒度特征学习两个方面,细粒度图像分类识别的工作取得了快速进展。基于部位检测和对齐的方法中,庞程等人公布了发明专利《基于弱监督及无监督部位检测和分割的细粒度分类方法》(公布号:CN110147841A),该发明专利从无监督和弱监督部位检测角度设计了部位检测算子,利用训练样本优化部位检测算子,理论上有更好的部位检测能力,但缺少实验结果。姚西文等人在发明专利《一种基于层进式特征变换的弱监督细粒度图像分类方法》(公布号:CN110097067A)中利用预训练卷积神经网络模型,对目标进行协同定位,然后联合图像级别分类器、对象级别分类器和部位级别分类器,三种级别的分类器融合得分对图像进行分类。该方法对搜索到的潜在目标区域没有区分对待,且从协方差矩阵角度求特征变换的方式,在大尺度图像数据集上难以得到预期的效果。基于细粒度显著性特征学习方面,庞程等人在发明专利《基于显著性无监督部位划分的弱结构物体细粒度分类方法》(公布号:CN110147840A)中利用超像素分割方法与背景分隔成若干个不同局部区域,然后分别统计这些局部区域的特征直方图。最后,将它们和全局池化特征融合用于弱结构物体分类,但尚未提供实验结果。戴兴华等人公布了发明专利《基于弱监督定位和子类别相似性度量的细粒度车型识别方法》(公布号:CN109359684A),使用VGG-Net进行定位和B-CNN用作特征提取,基于模糊相似矩阵选择正、负样本对组成三元组损失进行学习,该方法基于双线性卷积神经网络的特征提取仍显不足,且该方法对于弱结构物体类的处理未必奏效,在公开数据集Cars-196上的性能低于其它强监督方法。基于视觉注意力机制的思想,Fu等人提出《循环注意力卷积神经网络》,国际计算机视觉与模式识别会议,2017,pp.4476-4484(《Recurrent Attention Convolutional Neural Network》(Computer Vision and Pattern Recognition,2017,pp.4476-4484))。该方法通过视觉注意力定位判别性区域,关注局部区域中的判别性部位,学习多尺度局部区域特征。不足之处是关注一个多尺度局部区域,特征之间有较大冗余。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911394387.2/2.html,转载请声明来源钻瓜专利网。