[发明专利]一种复杂背景图像文字分割方法有效
| 申请号: | 201210560199.4 | 申请日: | 2012-12-20 |
| 公开(公告)号: | CN102968637A | 公开(公告)日: | 2013-03-13 |
| 发明(设计)人: | 柏猛;李敏花;吕英俊 | 申请(专利权)人: | 山东科技大学 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
| 地址: | 266590 山东省青*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 复杂 背景 图像 文字 分割 方法 | ||
技术领域
本发明涉及图像处理领域中的图像分割技术,尤其涉及一种复杂背景图像文字分割方法。
背景技术
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注,然而计算机理解图像的内容,目前还很困难。嵌入在图像中的文字,是图像语义内容的一种重要表达方式。如果能够自动提取和识别这些文字,就可以让机器自动理解图片内容并对图片进行分类,进而借助已经成熟的文本检索技术采用这些文字对图片进行标注和检索,从而为基于内容的图像和视频检索提供一种途径。然而,嵌入在图像中的文字通常都带有复杂背景,即使文本内容在图像中能被准确检测到,在没有去除背景之前,现有的OCR系统难以识别出字符,因而在提交给OCR系统之前还需要一个文字分割过程。因此,如何从复杂背景图像中分割文本信息,成为以文字为线索来理解和检索图像内容的一个关键任务。
现有的图像文字分割技术主要分为以下三类:基于阈值的方法、基于聚类的方法和基于统计模型的方法。
基于阈值的方法一般根据文字块中前景和背景的亮度分布自适应地选取一个全局阈值或自适应局部阈值。在图像背景比较单一时该类方法能取得较好的效果;当文字具有较复杂的背景,例如文字的灰度可能介于背景的多个灰度之间时,阈值法不再适用。
基于聚类的方法一般首先假定文字块中所有像素根据颜色可以分为K类,文字像素对应于其中一类,其余各类均为背景;然后采用经典的无监督聚类算法对所有像素进行聚类。这类方法可用于复杂背景的情况。但当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。
基于统计模型的方法首先为文字块内所有像素或者文字像素建立概率模型,一般根据颜色建立高斯混合模型(Gaussian Mixture Model,GMM),所有同色区域用一个Gaussian核函数表示。然后使用EM算法估计模型参数,最后根据最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,GMM模型存在着与聚类方法同样的问题,而且GMM核函数的个数难以确定。
上述各种文字分割方法,只利用了图像底层局部的灰度或彩色信息,没有考虑到文字的空间或全局上下文信息。因而,对复杂背景中的文字分割效果不好。
发明内容
本发明的目的就是为了解决上述问题,提供一种复杂背景图像文字分割方法,根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,并采用由粗到精两级分割的方法,从而提高复杂背景图像文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。
为了实现上述目的,本发明采用如下技术方案:
一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。
一种复杂背景图像文字分割方法,具体步骤如下:
步骤(1):开始,读取图像;
步骤(2):将图像中的文字区域块提取出来,并将文字区域块保存到相应位置;
步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);
步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);
步骤(5):抽取文字区域块中每个像素点的纹理特征:首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;
步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210560199.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超低温镀铝纸的制作方法
- 下一篇:建筑物太阳能利用系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





