[发明专利]西文单词切分方法和装置有效
申请号: | 201010622057.7 | 申请日: | 2010-12-24 |
公开(公告)号: | CN102542269A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 亓文法;王高阳;王立东;杨斌 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/20 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 西文 单词 切分 方法 装置 | ||
技术领域
本发明涉及数字排版领域,具体而言,涉及西文单词切分方法和装置。
背景技术
字符切分是字符识别(Optical Character Recognition,简称OCR)的基础。字符切分是将包含字符序列的图像分割成单个字符的过程。字符切分处理的基元为单个字符单元。目前,大多数字符识别是基于对单个字符的逐个识别,字符识别率的高低与字符切分的正确与否关系密切。常用的字符切分方法有:标准切分法、整体切分法、基于识别的切分法以及前三种方法的组合。
标准切分法主要使用在中文汉字字符切分过程中,该方法通过对图像进行分析寻找到字符之间较为合理的切分点,采用静态的投影分析方法,将文档图像进行行切分和列切分。
整体切分法主要使用在西文字符切分过程中,该方法是把一个单词作为一个整体来进行识别,这种方法虽然避免了单词内部切分的问题,但它依赖于现有的定义好的词典,这大大限制其应用范围。
基于识别的方法是对标准切分法及整体切分法所进行的反馈,该方法提供了多个切分假设,然后对切分结构进行选择,得到最优的切分结果,这种方法能够识别出字符切分结果的正确与否,但不能纠正字符切分的错误,而且这种方法较前两种方法复杂、计算复杂度更高,因而其在实际中的应用较少。
对于西文字符的识别而言,还存在着西文单词断裂的现象,即原本是一个完整的单词,而识别后变为两个独立的单词,比如“jack”在某些情况下可能会被识别成单独的“j”和“ack”,这给西文字符的切分结果带来了额外的人工校正成本。其原因主要有:a)在基于西文文档的印刷体识别系统中,首先对目标图像进行二值化操作。由于二值化过程带来的噪声、误差以及样本的印刷质量问题,在印刷体西文文档图像中,非常容易造成字符断裂现象。b)同时,根据个人西文书写习惯的不同,西文文档编辑断句时会有一个或多个空格(Space);或者由于特定的字体设置,使得单词之间的距离跟单词内部字符之间的距离比较接近,因此造成西文单词的错误切分。
发明内容
本发明旨在提供一种西文单词切分方法和装置,以解决现有技术错分单词的问题。
在本发明的实施例中,提供了一种西文单词切分方法,包括:将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;设置切分阈值;通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。
在本发明的实施例中,提供了一种西文单词切分装置,包括:行列模块,用于将西文图像通过行列切分得到多个字符图像块;识别模块,用于从字符图像块中识别有效字符图像块;阈值模块,用于设置切分阈值;切分模块,用于通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。
本发明上述实施例的西文单词切分方法和装置,因为引入了切分阈值来切分单词,所以解决了现有技术错分单词的问题,提高了切分西文单词的准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施提供的一种西文单词切分方法的流程图;
图2为本发明实施提供的对文本图像进行切分获得若干个字符图像块的流程图;
图3为本发明实施提供的获得当前行初始阈值方法的流程图;
图4为本发明实施提供的调整当前行初始阈值方法的流程图;
图5为本发明实施提供的调整当前行字符间距的方法的流程图;
图6为本发明实施提供的西文单词切分效果示意图;
图7为OCR识别结果示意图;
图8为本发明实施提供的一种西文单词切分装置的结构图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。
图1为本发明实施提供的一种西文单词切分方法的流程图,包括:
步骤S10,将西文图像通过行列切分得到多个字符图像块;
步骤S20,从字符图像块中识别有效字符图像块;
步骤S30,设置切分阈值;
步骤S40,通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010622057.7/2.html,转载请声明来源钻瓜专利网。