[发明专利]基于目标语义和注意力机制的图像场景分类方法及装置有效
| 申请号: | 201911311047.9 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111104898B | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 陈丽琼;邹炼;范赐恩;王嘉乐;程谟凡;裘兆炳 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V20/00;G06V10/774;G06K9/62;G06N3/04 |
| 代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 张宇 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 目标 语义 注意力 机制 图像 场景 分类 方法 装置 | ||
本发明公开了一种基于目标语义和注意力机制的图像场景分类方法及装置,属于图像识别领域,包括:收集或下载自然图像场景分类数据集;计算每类场景的目标概率分布;构建融合了通道注意力和空间注意力机制的场景分类网络,在数据集上进行训练,然后利用训练好的网络计算测试图片的类别概率;对于给定的测试图片,利用现有的目标检测网络检测场景图片存在的目标,并结合上一步的结果计算修正系数;用修正系数乘以类别概率,得到最后的场景分类概率,排序后输出最高概率的场景类别。本发明利用注意力机制提取有效特征,抑制无用特征,并且结合了场景的目标语义信息,使得最后的分类结果更加符合真实的场景类别,提高了自然图像场景分类的准确率。
技术领域
本发明属于图像识别领域,更具体地,涉及一种基于目标语义信息和注意力机制的自然图像场景分类方法及装置。
背景技术
随着互联网技术的迅猛发展以及智能手机、单反相机等移动设备的快速普及,数字图像已经成为一种被广泛利用的信息媒体,能够获取和访问的图像也在成倍增长。场景分类是图像识别领域的研究热点问题,在海量图像的检索与管理、人机交互、智能机器人、医学应用和旅游导航等领域有着广泛的应用。场景是由目标、空间布局、背景和它们之间的关联关系综合而成,是十分抽象的概念。场景分类不同于目标识别,原因在于场景的类别概念具有很强的主观性和复杂性,它不仅仅取决于场景图片中所包含的目标,还由各个语义区域及其层次结构和空间布局所决定。因此,场景分类也面临着更大的挑战,主要表现在以下方面:1)同类场景的类内差异性大,同一类别的场景中大多存在着相似的目标,但是由于光照变化、尺度变化、拍摄角度变化、天气变化等因素可能导致同类场景呈现不同的表现形式或结构布局,存在很大的差异性;2)不同场景类别可能具有较高的相似性,例如地铁站和火车站、机房和办公室都有着相似的外观和布局,在图片数量和场景类别日益增多的情况下,这种类间歧义性导致场景分类的准确率难以大幅提升。
传统的场景分类算法主要采取特征提取+特征聚合+分类的流程,可以分为基于底层特征的方法和基于高层特征的方法。底层特征关注的是颜色、纹理、形状等视觉特征,比较常用的特征描述子有SIFT、HOG、LBP、GIST特征等,常用的特征聚合模块包括视觉词袋模型(Bag of Visual Words,BoVW)、稀疏编码、费舍尔向量(Fisher Vector,FV)和局部聚合描述子向量(Vector of Locally Aggregated Descriptor,VLAD),得到聚合的特征之后输入分类器得到场景类别。论文“Object Bank:A High-Level Image Representation forScene ClassificationSemantic Feature Sparsification”从高层语义特征的角度入手,用一系列目标检测子的多尺度响应图为基础构建特征向量,通过识别场景中的目标进一步确定场景的类别,该方法在各类数据集上都有较为理想的表现。
上述方法设计方便,符合人眼的直观感知,但是随着数据量和场景类别的增加,传统方法无法提取深层次的图像特征,而深度学习的方法却十分适合处理海量数据的问题。随着MIT67、SUN397、Places365这些大规模场景分类数据集的出现,越来越多的学者将深度卷积神经网络(Convolutional Neural Networks,CNN)用于场景分类任务,典型的网络结构包括AlexNet、VGGNet、谷歌的Inception系列、ResNet、ResNeXt、SENet等。现有的一些基于深度学习的场景分类专利和论文如下:
1)申请号为CN201910302105.5的发明专利“基于改进残差网络的遥感图像场景分类方法”通过在原始的残差网络最后增加一个conv6卷积层,并适当调整了网络的层数减少网络参数,提高了网络在背景纹理复杂的遥感图像数据集上的分类准确率,但是该方法仅使用了单一的特征表示,在实际应用中泛化能力不强。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911311047.9/2.html,转载请声明来源钻瓜专利网。





