[发明专利]识别图像块中文字的方向的方法和装置有效
申请号: | 201110209833.5 | 申请日: | 2011-07-20 |
公开(公告)号: | CN102890784A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 孙俊;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 图像 文字 方向 方法 装置 | ||
技术领域
本发明一般地涉及文档图像处理。具体而言,本发明涉及一种识别图像块中文字的方向的方法和装置。
背景技术
当用户使用扫描仪等设备对一叠文档进行扫描时,理想的输入是每个文档的每一页都以正向放置。以正向放置文档时,用户能够轻松阅读该文档,扫描出的文档图像也无需用户调整方向即可阅读。然而,实际使用中,用户要扫描的文档往往是以正向0°、反向180°、横向90°和270°交叠放置。如果用户需要在扫描时对文档的放置方向进行逐页的检查和调整,工作是繁重而耗时的。因此,扫描仪设计有自动文档图像方向判别的功能。基于自动文档图像方向判别功能,扫描得到的文档图像可以被调整为正向,从而减轻了用户的负担,提高了用户的使用效率。
传统的文档图像自动判别方法是:找到文档图像中的文本行,在4个可能的方向上分别做光学字符识别OCR(Optical Character Recognition)处理,得到4个可能方向上的识别字符及对应的置信度或识别距离,并计算文本行的平均置信度或平均识别距离。平均置信度最大或平均识别距离最小的方向被判别为文本行的方向。进而根据文本行的方向判断文档图像的方向。文本行的方向是指文本行的正向,文档图像的方向是指文档图像的正向。下文中,文字(的)方向是指文字的正向。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
如图1所示,输入文本行“TIP AMOUNT”的图像块,设该方向为0°方向,将该文本行图像块旋转180°得到180°方向的文本行图像块。由于90°和270°方向与0°和180°方向的处理类似,因此这里仅以0°和180°为例进行说明。分别对0°和180°上的文本行图像块进行OCR处理,得到如图1中所示的两个方向上的子图像块、子图像块对应的识别字符及其置信度。
采用传统的方法,0°方向上识别字符的平均置信度=(0.59+0.36+0.53+0.61+0.61+0.61+0.53+0.72)/8=0.57,180°方向上识别字符的平均置信度=(0.62+0.58+0.65+0.67+0.60+0.46+0.50+0.58)/8=0.5825。由于0.57小于0.5825,传统的方法会将180°方向(即平均置信度高的方向)错误地判断为文本行图像块中文字的方向。
产生上述错误的原因之一是180°图像是从0°图像旋转得到的,识别字符当中存在很多旋转不变字符或者旋转不变字符对,比如N、O、p-d、U-n。如果同一个图像在正反两个方向识别的结果是同一旋转不变字符或者属于同一旋转不变字符对,实际上对应的识别置信度应该是一致的,因为正反两个方向的识别结果都是同一形状的正确的识别结果。在传统的利用平均识别置信度来判断文本行方向的方法中,由于没有考虑到旋转不变的特性,造成了一定的性能下降。
旋转不变字符包括具有180°自旋转对称性的字符,即所述旋转不变字符旋转180°后是其本身,例如,“I”,“O”,“Z”,“N”,“$”,“%”,等等。
旋转不变字符对包括两个字符,且所述两个字符中的任意一个旋转180°后与另一个字符一致或具有形状上的高相似度,例如,“W-M”,“U-n”,“P-d”,等等。
本发明的目的是针对上述问题,提出了一种能够正确识别图像块中文字的方向的方法和装置。该方案通过考虑旋转不变特性并据此对识别字符对应的正确性度量(置信度或识别距离)进行调整,能够提高自动文档图像方向判别的正确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110209833.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序