[发明专利]潜在狄利克雷模型的多尺度字典自然场景图像分类方法在审

申请号：	201310306975.2	申请日：	2013-07-20
公开（公告）号：	CN103390046A	公开（公告）日：	2013-11-13
发明（设计）人：	王爽;焦李成;张雪;牛振兴;马文萍;马晶晶;陈阳平	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;朱红星
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	潜在狄利克雷模型尺度字典自然场景图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于图像处理技术领域，特别涉及自然场景图像分类的方法，可用于目标识别、检测、智能车辆及机器人导航。

背景技术

在过去的十年里，自然场景图像分类已经成为图像处理技术领域里一个很重要的研究主体。自然场景图像分类有很广泛的应用，如目标识别与检测和智能车辆或机器人导航等领域。由于自然场景图像类内差异性、照明条件差异性和图像本身尺度差异性较大，使其仍然是具有挑战性的问题。

自然场景图像分类的分类方法大致可以分为两类：一类是基于低层语义模型的自然场景图像分类方法；一类是基于中层语义模型的自然场景图像分类方法。早期的一些自然场景图像分类方法大多数是应用低层信息建立模型的，这些方法采用全局统计信息，如运用全局的颜色或者纹理特征直方图表示图像。尽管这些方法的时间复杂性较低，但是它们通常应用于人为场景图像和室内场景图像分类，并且分类结果较差。近期关于自然场景图像分类的方法都是基于中层语义模型的，它们弥补了高层语义信息和低层语义信息之间的鸿沟，并解决层次分类定义重叠问题，因此得到了广泛应用。

Oliva和Torralba使用一组视觉感知属性来描述场景的主要空间结构，他们定义了自然度、宽阔度、粗糙度、伸展度和险峻度等视觉感知属性，通过底层特征来得到这些视觉感知属性。Vogel等人则首先将局部图像区域分类到一定的语义概念中，然后根据这些语义概念在图像中出现的频率描述图像。但这些方法中为了得到预定义的语义概念模型，往往需要大量的人工标记样本。为了减少生成中间语义所需的人工标记工作，一些采用文本主题模型的方法被用于自然场景图像分类，这些方法主要以Lifeifei和Quelhas等人提出的自然场景图像分类方法为代表。这些方法通常先提取图像中的尺度不变特征，然后将图像的尺度不变特征通过聚类生成一个字典来表示聚类中心，然后通过字典映射得到一个表示图像的稀疏表示向量，最后应用文本分类中的概率潜在语义分析方法和潜在狄利克雷模型等主题分析方法来找出图像的潜在语义主题分布，从而完成图像的场景分类。这类方法虽然很大地减少对人工标记的需求，但是它们通常是根据图像中视觉词汇出现的总体情况来进行场景分类的，由于没有考虑词汇之间的尺度关系和语义关系，因此往往不能得到好的分类结果。

发明内容

本发明的目的在于针对上述已有方法的不足，提出一种潜在狄利克雷模型的多尺度字典自然场景图像分类方法，以减少人工标记的需求，丰富图像特征的尺度信息，提高分类正确率。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)分别建立自然场景图像分类训练集和图像分类测试集；

(2)提取训练集中每幅图像采样点尺度不变特征集合F，生成多尺度字典D：

(2a)用网格采样方法对训练集中的每幅图像进行网格采样，得到每幅图像的网格采样点SP；

(2b)用尺度不变特征提取方法对训练集中每幅图像的网格采样点SP提取尺度不变特征，得到训练集中每幅图像的尺度不变特征集合F；

(2c)用K均值聚类算法分别对训练集上每幅图像网格采样点的尺度不变特征F进行聚类，生成字典D；

(3)用多尺度字典D对训练集中每幅图像进行字典映射词袋模型BOW描述，得到每幅图像对应的多尺度稀疏表示向量W；

(4)用Gibbs采样方法估计潜在狄利克雷模型中的隐参数，得到训练集中每幅图像的潜在语义主题模型Z和潜在语义主题分布θ；

(5)用图像潜在语义主题模型Z生成测试集中每幅图像潜在语义主题分布θ₁；

(6)将训练集中每幅图像的潜在语义主题分布θ和其对应的类别l作为训练数据，用支撑向量机SVM算法获得自然场景分类模型E；