[发明专利]基于短语包模型的图像类别标注方法有效
| 申请号: | 201010195097.8 | 申请日: | 2010-05-31 |
| 公开(公告)号: | CN101894264A | 公开(公告)日: | 2010-11-24 |
| 发明(设计)人: | 肖柏华;张琳波;王春恒;惠康华;邵允学;蔡新元 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
| 地址: | 100080 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 短语 模型 图像 类别 标注 方法 | ||
技术领域
本发明属于模式识别与信息处理技术领域,涉及基于短语包模型的图像类别标注方法,具体的是一种图像分类方法。
背景技术
由于数码相机等数码产品的低廉价格,图片、视频数据可以很方便的拍摄并保存成方便计算机处理的电子形式。同时,互联网资源的迅猛发展,使得广大用户开始面临一个庞大的数据资源。单纯的利用人力来维护和组织这些数据已经变得不现实。因此,开发一种技术来完成图像、视频数据的自动标注,成了一个热点问题。
总的来说,如何合理的表示图像比后来用于对这些表示进行分类的分类技术更为重要。道理可以通过一个例子来说:两幅不同类别的图像,由于表示策略不好,被表示成了相同的向量;此时,即使使用一个万能的分类器对这种情况也是无能为力的。因此,图像内容表示,是图像类别标注技术中核心的问题之一。
最初,人们更喜欢使用从整幅图像抽取的全局特征来表示图像。但是这种全局特征在表示图像方面遇到很多问题,比如它对目标轻微的遮挡以及复杂背景的混淆缺乏鲁棒性。另一方面,基于局部图像块的方法,却受到了越来越多的关注。人体生理学家发现,人类视觉早期分为“留意前”阶段(pre-attentive stage)和“留意”阶段(attentive stage)。在“留意前”阶段,一些比较特别的局部特征开始捕获人的注意力;然后,在“留意”阶段,人类视觉器官开始注意这些局部特征之间的关系。在这种思想的影响下,图像内容分类取得了重大进展。
对应着“留意前”阶段,大量的局部特征检测子和局部特征描述子被提出,用来捕获图像中比较特别的局部特征。例如,目前的检测子有:角点检测子、区域检测子、水滴状形状检测子,边缘检测子等等。而为了对这些检测到的区域进行向量化描述,研究者又提出了大量局部特征描述子,包括:基于滤波的描述方法、基于统计的描述方法,基于边缘的描述方法以及基于矩的描述方法等等。这些方法各有优缺点,被广泛的应用于局部特征的提取过程之中。
得到上面提到的局部特征以后,如何组织这些特征以利于分类开始提上日程,也即,对应着人类视觉中的“留意”阶段。为了有效地组织这些局部特征,大量的组织模型在过去的几年被先后提出。总的来说,这些模型大致可以分为一下几个大类:字包(bag-of-words)模型、部分-全局(part-structure)模型、轮廓片段相关的模型、语义场景相关的模型、生物感知相关的模型等等。在这些模型当中,字包模型以其计算简单,性能鲁棒等优点,在过去的几年取得了很大的成功。
字包模型首先被应用于文本分类领域,它的主要思想是:建立一个码本,码本中包含对分类具有判别性的字;然后统计码本中的每个字在当前文本中出现的次数,形成一个出现次数直方图向量。然后这个向量被用作文本的表示向量,输入分类器进行分类。
然后,这种思想被引入计算机视觉。其中的文本与字分别对应着计算机视觉领域的图像和局部特征(又称视觉字),码本在计算机视觉领域也成为码本,只是它是由一系列具有代表性的局部特征/视觉字构成;相应的,图像被表示成了码本中的局部特征在图像中出现次数形成的直方图向量。这些向量可以代表图像直接被输入分类器进行分类。
但是,正如众多研究者指出的那样,字包模型把图像中重要的位置信息丢掉了。为了引入部分位置信息,有的研究者提出把原图像分块,然后在每个块内分别建立直方图的方式。但是,随着分块的增多,分类结果对目标在图像中的位置变得越来越敏感,使得字包模型对目标在图像中位置鲁棒的优点消失殆尽。
发明内容
为了解决现有字包模型存在的问题,本发明目的是在不影响现有的字包模型鲁棒性的同时引入局部特征点之间的结构位置信息,提高图像表示的质量,进而提高自动标注系统的性能,为此本发明提供一种基于短语包模型的图像类别标注方法。
为了达到所述目的,本发明提供一种基于短语包模型的图像类别标注方法,该图像类别标注方法,通过分析字包模型中视觉字之间的位置关系,将视觉字发展为视觉短语,进而提出基于短语包模型的图像内容表示,然后利用短语包模型的表示结果训练分类器以及输入分类器进行类别标注。
其中,所述基于短语包模型的图像内容表示包括步骤如下:
步骤S1:对任意图像Ii,利用局部特征点检测子,得到图像中所有的局部特征点Pi={pij},j=1,2,...,Ni,其中Ni为在图像Ii中检测到的所有局部特征点的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010195097.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





