[发明专利]一种基于区域潜在语义特征的自然场景图像分类方法无效
申请号: | 200810031577.3 | 申请日: | 2008-06-25 |
公开(公告)号: | CN101315663A | 公开(公告)日: | 2008-12-03 |
发明(设计)人: | 吴玲达;谢毓湘;曾璞;杨征;栾悉道;文军;陈丹雯 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F17/30 |
代理公司: | 国防科技大学专利服务中心 | 代理人: | 郭敏 |
地址: | 410073湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 潜在 语义 特征 自然 场景 图像 分类 方法 | ||
技术领域
本发明涉及多媒体信息处理技术领域里关于图像分类的方法,尤其是一种通过提取图像的区域潜在语义特征来实现对自然场景图像进行分类的方法,是一种综合考虑了图像区域所包含的信息以及这些区域信息在图像的空间分布来进行自然场景图像分类的方法。
背景技术
互联网的快速发展、信息存储与传输技术的发展以及数码设备的普及带来图像数据的爆炸性增长,这就对如何进行大量图像数据的检索与浏览提出了新的技术挑战。面对数量如此巨大的图像数据,传统的依靠人工来对图像进行分类的管理方式因为需要耗费大量的人力资源而变得不可行。因此,如何利用计算机将图像自动分类到一些预定义的类别中就成为其中的一个关键问题。由于自然场景图像在人们的日常生活中十分常见,数量也十分巨大,因此对于自然场景图像的分类问题的研究就成为了当前计算机视觉和多媒体信息管理领域的一个热点问题。
传统的自然场景图像分类方法通常使用色彩、纹理和形状等图像底层物理特征来直接与各种分类方法相结合,从而实现对图像的分类。采用底层物理特征的一个主要问题在于底层物理特征往往只反映图像在物理感知层次上的特点,而不是人们所关注的认知层面的内容。近年来,为了克服底层物理特征与人类认知语义之间的鸿沟,使用中间语义特征来对自然场景建模的方法得到了广泛的关注。Oliva和Torralba使用一组视觉感知属性来描述场景的主要空间结构,他们定义了自然度、宽阔度、粗糙度、伸展度和险峻度等视觉感知属性,通过分析底层特征来得到这些视觉感知属性。Vogel等人则首先将局部图像区域分类到一些预定义的语义概念中,然后根据这些语义概念在图像中出现的频率来描述图像。但在这些方法中,为了得到预定义的语义概念模型,往往需要大量的人工标注样本。为了减少生成中间语义所需的人工标注工作,一些采用文本主题模型的方法被用于图像场景分类,这些方法主要以Lifeifei、Quelhas以及Bosch提出的方法为代表。这些方法通常先提取图像中的尺度不变特征(Scale Invariant Feature Transform,SIFT),然后将图像的SIFT特征通过聚类生成一个视觉词汇表来表示聚类中心。在生成了视觉词汇表后将图像中的SIFT特征映射成一个个的视觉词汇,从而采用文本中最常见的词袋特征(Bag of Word,BOW)来表示图像,最后应用文本分类中的概率潜在语义分析方法(Probabilistic Latent Semantic Analysis,PLSA)和潜在Dirichlet分析方法(LatentDirichlet Analysis,LDA)等主题分析方法来找出图像最可能属于的主题或者潜在语义,从而完成图像的场景分类。这类方法能够很大地减少对人工标注的需求,但是它们通常是根据图像中视觉词汇出现的总体情况来进行场景分类,它们既没有考虑视觉词汇在空间的分布特点,也无法利用图像中区域语义构成的上下文信息来进行场景分类,因此在图像视觉词汇总体分布规律不显著的情况下往往不能得到好的分类结果。
发明内容
本发明要解决的技术问题是如何综合利用图像区域所包含的潜在语义信息和这些区域包含的潜在语义信息在空间的分布规律来进行自然场景图像分类。本发明提供一种基于区域潜在语义特征的自然场景图像分类方法,首先通过对图像进行空间金字塔分块来生成图像区域,然后使用概率潜在语义分析方法来得到区域潜在语义特征(即每个分块区域包含每一个潜在语义的概率值),最后利用区域潜在语义特征来构建相应的分类器模型,从而将自然场景图像自动分类到预定义的类别。本发明通过综合利用图像的区域语义信息和区域信息在图像上的空间分布情况,提高了分类的准确性和智能性,减少了人工参与的程度,能够满足图像管理和检索的需求。
本发明的技术方案如下:
第一步,建立自然场景图像分类代表集。方法是:
1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数。
1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表。
1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集。
第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表。方法是:
2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是:对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂,建议M取8或16;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810031577.3/2.html,转载请声明来源钻瓜专利网。