[发明专利]一种基于区域潜在语义特征的自然场景图像分类方法无效
| 申请号: | 200810031577.3 | 申请日: | 2008-06-25 | 
| 公开(公告)号: | CN101315663A | 公开(公告)日: | 2008-12-03 | 
| 发明(设计)人: | 吴玲达;谢毓湘;曾璞;杨征;栾悉道;文军;陈丹雯 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 | 
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F17/30 | 
| 代理公司: | 国防科技大学专利服务中心 | 代理人: | 郭敏 | 
| 地址: | 410073湖*** | 国省代码: | 湖南;43 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 区域 潜在 语义 特征 自然 场景 图像 分类 方法 | ||
1.一种基于区域潜在语义特征的自然场景图像分类方法,其特征在于包括以下步骤:
第一步,建立自然场景图像分类代表集,方法是:
1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数;
1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表;
1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集;
第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征即尺度不变特征提取,生成通用视觉词汇表,方法是:
2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是:对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂;
2.2、对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征:在采样点SP周围P×P像素大小的区域上计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量,P为自然数,取值范围为8-20;
2.3、使用K均值聚类算法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表,K为自然数,取值为5001-1000;
第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW即词袋特征描述,并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型即潜在语义出现时的视觉词汇出现的后验概率,具体包括以下步骤:
3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇:计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;
3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L层空间金字塔分块:给定任意图像Ig和分层数L,分别在L个层次上对图像进行均匀分块,其中第l层的图像分块是对图像进行2l-1×2l-1的均匀分块,对一幅图像进行L层空间金字塔分块一共得到Q=(4L-1)/3个大小和空间位置各不相同的图像区域,1≤L≤4,1≤l≤L;
3.3、对每个图像分块区域分别采用BOW描述生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具体方法是:
3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域中的网格采样点;
3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表中每个视觉词汇在图像区域中出现的次数;
3.3.2用向量[f1,...,fk,...,fK]表示图像区域的BOW描述,fk表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数,1≤k≤K,K为通用视觉词汇表的大小;
3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA即概率潜在语义分析,生成区域潜在语义模型:
首先使用下式来表示“文档-词”的条件概率
P(vk|zs)为第s个区域潜在语义zs出现时的通用视觉词汇表中第k个视觉词汇vk的后验概率,它描述了vk对zs的贡献度,所有的P(vk|zs)值构成区域潜在语义模型,P(zs|ri)表示第i个图像区域ri中包含zs的后验概率,它描述了ri中具有zs的概率,P(ri)是图像区域ri出现的概率,S为图像所有区域包含的潜在语义的数目,S取20-80;
然后根据极大似然估计原则,通过概率潜在语义分析,求取如下对数似然函数的极大值来计算P(vk|zs)以生成区域潜在语义模型:
n(ri,vk)表示vk在ri中出现的次数;
最后,采用期望最大EM算法对P(vk|zs)进行极大似然估计,EM算法交替于E步和M步直至收敛:
3.4.1、在E步,利用当前估计的参数值来计算区域ri中包含vk时潜在语义zs出现的后验概率P(zs|ri,vk):
P(zs)为潜在语义zs出现的概率;
3.4.2、在M步,利用期望值P(zs|ri,vk)来最大化当前的参数估计:
在分块BOW描述集合上循环E步和M步,迭代公式(3)(4)(5)(6)直到收敛,收敛条件为迭代次数大于300或者连续两次迭代得到的P(zs|ri,vk)差值小于0.001,得到所有P(vk|zs);
第四步,对任意一幅图像提取图像区域潜在语义特征,方法是:
4.1、采用网格采样方法对图像进行网格采样,然后采用SIFT特征提取方法提取出每个采样点的SIFT特征;
4.2、对于该图像采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述;
4.3、对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型P(vk|zs),用EM算法迭代公式(3)(5)(6)直至收敛,得到每个图像分块区域ri具有潜在语义zs的概率P(zs|ri);
4.4、构建图像区域潜在语义特征对于每一个分块区域ri得到一个S维的特征向量[P(z1|ri),...,P(zS|ri)],将图像所有分块区域的S维特征向量连接起来就构成了图像的区域潜在语义特征,其形式为[P(z1|r1),...;P(zS|r1),...P(z1|rQ),...P(zS|rQ)];
第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据,运用支持向量机SVM算法生成自然场景分类模型;
第六步,根据自然场景分类模型对图像的区域潜在语义特征进行分类,方法是:将任意图像的区域潜在语义特征提交给自然场景分类模型,在模型中比较该区域潜在语义特征与模型中各个类别特征的距离,距离最小的类别就是最终的自然场景图像类别。
2.如权利要求1所述的基于区域潜在语义特征的自然场景图像分类方法,其特征在于所述M取8或16,P取16,K取800。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810031577.3/1.html,转载请声明来源钻瓜专利网。





