[发明专利]一种手写文字输入方法有效
| 申请号: | 200810246587.9 | 申请日: | 2008-12-29 |
| 公开(公告)号: | CN101452368A | 公开(公告)日: | 2009-06-10 |
| 发明(设计)人: | 张岩;于啸 | 申请(专利权)人: | 北京文通科技有限公司 |
| 主分类号: | G06F3/048 | 分类号: | G06F3/048;G06K9/00 |
| 代理公司: | 北京方韬法业专利代理事务所 | 代理人: | 岳 亚 |
| 地址: | 100190北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 手写 文字 输入 方法 | ||
技术领域
本发明涉及计算机文字识别技术领域,尤其涉及一种手写文字输入方法。
背景技术
目前联机手写单字手写识别率已经很高,但是由于自由手写体的切分难度大,使得手写文档的识别还不能达到实用,因此解决自由手写体切分显得十分重要。
在语言文字学中,汉字由笔画、偏旁部首和单字三个层次组成,如果进一步细分还可以将汉字划分为:笔段、笔画、部件、单字四个层次。在基于结构的手写体汉字识别中,笔画常为笔段代替。笔段有长度和方向特性,方向上有横、竖、撇、捺四种,分别对应着水平、垂直、右斜、左斜。
汉字的偏旁部首大多位于单字的左、右、上、下和四周。在古代文献中,汉字的左侧称为“偏”,右侧称为“旁”,并统称为“偏旁”,在实际使用中汉字的上、下、左、右都可以存在偏旁部首。在汉语字典中,通常根据偏旁部首和笔顺建立索引,这种方法在基于结构的汉字识别系统中也得到广泛应用。汉字字形结构规范中,部件是介于笔画和与单字之间的层次,部件也是由笔画组成的,是构成单字的基本结构单位。
《汉字部件规范》的基础部件表给出了20902个汉字的560个末级部件,其中“口”是组字最多的部件,共组字3847个,组字次数4603次,例如在“哭”字中出现2次。在20902个汉字中,单部件字有359个,部件最多的字由13个部件构成。20902个汉字共分13种基本字典结构,其中左右形汉字最多,共14534个;下包围形最少,只有7个。
汉字是方块字,因此在切分的时候手写字符的外边框反应了重要的切分些信息。两个部件之间的位置关系可以分为上下关系、左右关系和包围关系。对于不同的位置关系,可以根据其外边框进行合并,上下关系和包围关系可以合并在同一字内,而左右关系需要根据前后文字部件的分布情况进行合并。
左右形汉字最多而且切分难度大,对于联机手写体识别,由于处理左右关系部件产生切分错误并导致识别结果错误,是影响识别率的最主要因素。因此针对左右关系部件的切分策略是我们需要解决的关键问题。目前手写识别系统采用的汉字切分方法大多是按照位置关系进行的,要求字符串的书写风格相对稳定,汉字字符串中字间距与字内距有一定的区别,即字间距一般大于字内距,一串字符中的汉字字符大小比较一致,字符的宽度变化在一定的范围内。
在实际的联机手写输入过程中,不一定能保证这些条件,从而影响了手写文字的识别率。
发明内容
本发明的目的在于提出一种手写文字输入方法,能够有效提高手写文字的识别率。
为达此目的,本发明采用以下技术方案:
一种手写文字输入方法,包括以下步骤:
A、输入设备对手写文字进行采样;
B、将所述手写文字切分成符合要求的基本单元;
C、对所述基本单元或者基本单元组合进行识别,标记出可以作为切分依据的部件;
D、根据所述部件的分类属性确定可信切分位置,其中分类属性是根据每个部件在组字时可能出现的位置进行分类,标记为左、中、右三类,以确定部件应该与左侧还是应该与右侧的单元进行合并;
E、根据统计语言模型对一句文字进行识别,选择切分路径和识别结果,并确定切分位置;
F、输出不少于一种识别结果。
步骤A中,对手写文字采样的结果是按照时间顺序的坐标点序列,并标记了文字笔画的起点、中间点和结束点。
步骤B中,还包括以下步骤:
对不少于两行的文字进行行切分。
步骤B中,依据所述文字的笔画的外接矩形的宽度、高度和宽高比,对所述手写文字的笔画进行切分,并将相邻笔画合并成基本单元。
步骤C进一步包括以下步骤:
设立二维的部件关系表;
将所述基本单元或者基本单元组合与所述部件关系表进行对比,确定可以作为切分依据的部件。
步骤F进一步包括以下步骤:
如果采用字的二元模型,则要建立一个二维统计概率表,给出任意两个文字之间的转移概率;
输出的识别结果中包括一个统计意义最优的识别结果。
采用了本发明的技术方案,可以在识别的基础上根据左右结构汉字的组字规律进行切分,并对于不确定的切分点采用语言模型进行分析,并给出最佳结果,提高手写文字的识别率。
附图说明
图1是本发明具体实施方式中手写文字输入的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
在手写汉字切分中,可利用的信息有四个层次:部件、字、词、句,为了进行稳定准确的切分,应该充分利用这几个层次的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文通科技有限公司,未经北京文通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810246587.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型节能差压式流量测量装置
- 下一篇:激光测量起重机主梁上拱度的方法





