[发明专利]一种手写文字输入方法有效

专利信息
申请号: 200810246587.9 申请日: 2008-12-29
公开(公告)号: CN101452368A 公开(公告)日: 2009-06-10
发明(设计)人: 张岩;于啸 申请(专利权)人: 北京文通科技有限公司
主分类号: G06F3/048 分类号: G06F3/048;G06K9/00
代理公司: 北京方韬法业专利代理事务所 代理人: 岳 亚
地址: 100190北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 手写 文字 输入 方法
【说明书】:

技术领域

发明涉及计算机文字识别技术领域,尤其涉及一种手写文字输入方法。

背景技术

目前联机手写单字手写识别率已经很高,但是由于自由手写体的切分难度大,使得手写文档的识别还不能达到实用,因此解决自由手写体切分显得十分重要。

在语言文字学中,汉字由笔画、偏旁部首和单字三个层次组成,如果进一步细分还可以将汉字划分为:笔段、笔画、部件、单字四个层次。在基于结构的手写体汉字识别中,笔画常为笔段代替。笔段有长度和方向特性,方向上有横、竖、撇、捺四种,分别对应着水平、垂直、右斜、左斜。

汉字的偏旁部首大多位于单字的左、右、上、下和四周。在古代文献中,汉字的左侧称为“偏”,右侧称为“旁”,并统称为“偏旁”,在实际使用中汉字的上、下、左、右都可以存在偏旁部首。在汉语字典中,通常根据偏旁部首和笔顺建立索引,这种方法在基于结构的汉字识别系统中也得到广泛应用。汉字字形结构规范中,部件是介于笔画和与单字之间的层次,部件也是由笔画组成的,是构成单字的基本结构单位。

《汉字部件规范》的基础部件表给出了20902个汉字的560个末级部件,其中“口”是组字最多的部件,共组字3847个,组字次数4603次,例如在“哭”字中出现2次。在20902个汉字中,单部件字有359个,部件最多的字由13个部件构成。20902个汉字共分13种基本字典结构,其中左右形汉字最多,共14534个;下包围形最少,只有7个。

汉字是方块字,因此在切分的时候手写字符的外边框反应了重要的切分些信息。两个部件之间的位置关系可以分为上下关系、左右关系和包围关系。对于不同的位置关系,可以根据其外边框进行合并,上下关系和包围关系可以合并在同一字内,而左右关系需要根据前后文字部件的分布情况进行合并。

左右形汉字最多而且切分难度大,对于联机手写体识别,由于处理左右关系部件产生切分错误并导致识别结果错误,是影响识别率的最主要因素。因此针对左右关系部件的切分策略是我们需要解决的关键问题。目前手写识别系统采用的汉字切分方法大多是按照位置关系进行的,要求字符串的书写风格相对稳定,汉字字符串中字间距与字内距有一定的区别,即字间距一般大于字内距,一串字符中的汉字字符大小比较一致,字符的宽度变化在一定的范围内。

在实际的联机手写输入过程中,不一定能保证这些条件,从而影响了手写文字的识别率。

发明内容

本发明的目的在于提出一种手写文字输入方法,能够有效提高手写文字的识别率。

为达此目的,本发明采用以下技术方案:

一种手写文字输入方法,包括以下步骤:

A、输入设备对手写文字进行采样;

B、将所述手写文字切分成符合要求的基本单元;

C、对所述基本单元或者基本单元组合进行识别,标记出可以作为切分依据的部件;

D、根据所述部件的分类属性确定可信切分位置,其中分类属性是根据每个部件在组字时可能出现的位置进行分类,标记为左、中、右三类,以确定部件应该与左侧还是应该与右侧的单元进行合并;

E、根据统计语言模型对一句文字进行识别,选择切分路径和识别结果,并确定切分位置;

F、输出不少于一种识别结果。

步骤A中,对手写文字采样的结果是按照时间顺序的坐标点序列,并标记了文字笔画的起点、中间点和结束点。

步骤B中,还包括以下步骤:

对不少于两行的文字进行行切分。

步骤B中,依据所述文字的笔画的外接矩形的宽度、高度和宽高比,对所述手写文字的笔画进行切分,并将相邻笔画合并成基本单元。

步骤C进一步包括以下步骤:

设立二维的部件关系表;

将所述基本单元或者基本单元组合与所述部件关系表进行对比,确定可以作为切分依据的部件。

步骤F进一步包括以下步骤:

如果采用字的二元模型,则要建立一个二维统计概率表,给出任意两个文字之间的转移概率;

输出的识别结果中包括一个统计意义最优的识别结果。

采用了本发明的技术方案,可以在识别的基础上根据左右结构汉字的组字规律进行切分,并对于不确定的切分点采用语言模型进行分析,并给出最佳结果,提高手写文字的识别率。

附图说明

图1是本发明具体实施方式中手写文字输入的流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

在手写汉字切分中,可利用的信息有四个层次:部件、字、词、句,为了进行稳定准确的切分,应该充分利用这几个层次的信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文通科技有限公司,未经北京文通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810246587.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top