[发明专利]手写文本行字符切分方法、识别方法无效
| 申请号: | 201010587738.4 | 申请日: | 2010-12-14 |
| 公开(公告)号: | CN102156865A | 公开(公告)日: | 2011-08-17 |
| 发明(设计)人: | 镇立新 | 申请(专利权)人: | 上海合合信息科技发展有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34 |
| 代理公司: | 上海光华专利事务所 31219 | 代理人: | 王松 |
| 地址: | 200433 上海市杨浦区复旦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 手写 文本 字符 切分 方法 识别 | ||
技术领域
本发明属于图像处理及手写文字识别技术领域,涉及一种字符切分方法,尤其涉及一种手写文本行字符切分方法;同时,本发明还涉及一种手写文本行字符的识别方法。
背景技术
人机自然交流是未来人机交互的重要发展方向,而文字是人类与计算机之间自然交流的手段之一。根据人类自然语言的描述形式,通过一定的方法和技术手段(例如利用触摸屏、扫描仪或摄像头)获取用户的手写文字,再利用一定的技术方法对手写文字图像进行分析及处理,实现计算机对文字的自动识别,也即我们所说的文字识别。
目前单字符文字识别技术已经比较成熟,但无约束的全屏书写文本行文字识别仍然是一个亟待解决的难题。所谓单字符识别是每次用户仅输入一个字符图像给电子设备进行识别处理;所谓文本行识别是指用户可以在书写介质上按照自然的书写习惯书写一行文字,我们称之为文本行,该文本行再提交到电子设备进行识别。显而易见,文本行输入比单字符输入具有更好的字符输入效率。无约束文本行一般是指自然书写的,由于未对书写者做任何书写上的限制,人们可以按照日常的书写风格进行自由地书写,而不需考虑字迹工整、无连笔、文本行中的文字在一条水平直线上等等要求。因此,自然书写的文本行识别,为人们向计算机输入文字提供了一种更加自然的方式。但另一方面,由于在自然书写的情况下,字符书写潦草,字符之间的情况复杂:重叠、粘连、过分等常常发生,并且所写的文字可能还不在一条直线上。对于计算机而言,无疑加大了其自动识别的难度,其中最大的难点在于将文本行中的单个字符用一定的技术手段进行自动分割出来,从而方便利用单字符识别技术进行字符识别处理。
文本行的识别是以单字符为基础进行的,即:首先需要确定文本行中各个字符的界限,分别对这些字符进行识别,然后以此为基础识别出整个文本行。然而在自然书写的情况下,准确地切分出文本行中的各个字符是一项非常困难的工作。现有的字符切分算法,或者切分准确性不够高,或者切分时间长,不能满足实时运算的要求。在无约束自然书写脱机中文文本行中,字符之间的界限不明显,重叠、粘连等情况经常发生(见图1),给字符的准确切分带来了很大的困难。以往中文文本行的预切分方法主要有基于细化的方法、基于笔划提取的方法等等。其中,前者的切分准确性较高,但需要耗费大量的时间;后者实现较简单,但切分效果不够理想。而且在以上方法中,都无法对字符之间的界限不明显,重叠、粘连等情况进行较好的切分。
发明内容
本发明所要解决的技术问题是:提供一种手写文本行字符切分方法,可准确地进行文本行的切分。
此外,本发明还提供一种手写文本行字符的识别方法,可准确地进行文本行的识别。
为解决上述技术问题,本发明采用如下技术方案:
一种手写文本行字符切分方法,所述方法包括如下步骤:输入文本行;对于输入文本中的自然分隔的字符,利用直方图投影法对其进行切分;对于输入文本中的重叠字符,利用在重叠区域内设置隔离点的方法对其进行切分;对于输入文本中的粘连字符,首先检测出其中的粘连点,然后将字符在粘连点处分裂开,而后将其作为重叠字符进行切分。
一种手写文本行字符切分方法,所述方法包括如下步骤:
步骤100:输入文本行;
步骤200:对自然分隔的字符进行切分;
步骤300:对经过步骤200得到的结果,估计每个字符宽度,判断该字符宽度是否大于预设阈值T;若是,则转向步骤400;否则转向步骤700;
步骤400:进行重叠字符切分;
步骤500:对经过步骤400得到的结果,估计每个字符宽度,判断该字符宽度是否大于预设阈值T;若是,则转向步骤600;否则转向步骤700;
步骤600:进行粘连字符的切分;
步骤700:输出切分结果;
步骤800:结束。
作为本发明的一种优选方案,所述步骤200中,采用如下方法进行自然分隔的字符切分:
计算所给定的文本行直方图投影曲线中寻找零值区域,确定自然分隔字符之间的间隔;
居于间隔的中部、并且与左右两个字符的距离相等一条垂直线,作为自然分隔字符的切分路径。
作为本发明的一种优选方案,所述步骤300中,采用如下方法进行字符宽度的估计:
步骤310:按下述公式估计出字符的平均宽度Mean_Wid:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海合合信息科技发展有限公司,未经上海合合信息科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010587738.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:35kV及以下环保型防鼠防蚁电缆
- 下一篇:室外抗拉电缆





