[发明专利]文书辨识的切字错误自动更正方法及装置无效

专利信息
申请号: 96100537.8 申请日: 1996-04-09
公开(公告)号: CN1084503C 公开(公告)日: 2002-05-08
发明(设计)人: 张照煌 申请(专利权)人: 财团法人工业技术研究院
主分类号: G06K9/03 分类号: G06K9/03
代理公司: 北京市柳沈律师事务所 代理人: 马莹
地址: 台湾省*** 国省代码: 台湾;71
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文书 辨识 错误 自动 更正 方法 装置
【说明书】:

本发明有关于一种文书辨识的错误更正方法及其装置,特别有关于汉字文书辨识时切字错误的自动更正方法及其所用装置。其应用范畴包括中文表单阅读机、印刷/手写中文文字辨识系统、笔式电脑环境/线上手写中文辨识、稿纸阅读机、及其它汉字文书辨识系统。

图1表示一般汉字文书辨识的处理流程图。首先于步骤10中利用影像拾取装置,例如常见的扫描器(scanner),将文件的文字影像转化为电子信号。上述文件在实际应用上可能包括印刷体及手写体,因此字间距未必相同。步骤20的前处理,则进行图文分离、文字切割,找出一连串的汉字文字方块影像。接着在步骤30个别对所得汉字文字方块影像抽取其统计特征或结构特征,计算出各文字影像的特征值。再将上述特征值和事前训练所得的辨识字集的参数样板进行特征比对(步骤40),找出其间相似度最高的一个或多个候选字及对应的相似度评分,以构成候选字矩阵(步骤50)。上述步骤10-50为一般文字的辨识阶段,所得结果即为候选字矩阵;但是要达到文书辨识阶段,则需通过语言模型进行后处理。

以“乌鸦”二字为例,在实际的文字辨识时有可能被视为“鸟鸦”,所得候选字矩阵类似以下的形式:

鸟(20)鸦(17)

乌(22)雅(30)各候选字右侧数字代表其相似度评分,其数值愈小,表示与原字形影像相似程度愈高(亦即差异性愈小)。如上所述,“鸟鸦”的相似程度反较“乌鸦”来得高。因此,步骤60所进行的后处理,即是利用语言模型改正上述可能产生的文字辨识错误,例如利用词库来选择“乌鸦”而非“鸟鸦”。一般语言模型评分可以利用熟知的统计评分,如字接续表、词接续表、词间字接续表、词性接续表或词群接续表、或以词库为基础的词长词频评分,以概率值或分数值表现。最后由步骤70选择相似程度最高的候选字字串当做结果输出。

在文书辨识中,类似“乌”与“鸟”之间所发生的错误,一般称之为替换性错误,产生于特征抽取和特征比对步骤中。除此之外,还有一种切字错误,产生于前处理中的切字步骤。切字错误一般包括分割性的切字错误,如“所”被辨识成“户斤”,“鸦”被辨识成“牙鸟”,以及合并性的切字错误,如“京尤”被辨识成“就”。对于有明格/暗格的硬性规定稿纸文书而言,切字错误的问题并不严重;但在即有汉字文书或无明格/暗格的自然手写文字的输入时,切字错误则相当明显。

目前熟知的错误检测与错误更正技术,均局限在处理替换性错误方面,台湾专利81104438,80102492,80107315,83103817。对于切字错误而言,现今的产品及实验室系统均以提供人工操作的更正工具来解决。在实际应用上,显然并非有效的方案。

本发明的主要目的,在于提供一种文书辨识的切字错误自动更正方法,用以有效解决文字辨识中的切字错误,提高辨识的正确性。

本发明的另一目的,在于提供一种文书辨识的切字错误自动更正装置,可根据文字辨识所得候选字矩阵,产生正确性高的辨识结果。

根据上述目的,本发明提供一种文书辨识的切字错误自动更正方法,用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵是经由文字辨识后所产生,本发明利用代表能够分割和合并垂直/水平字形的垂直/水平字形结构表,垂直/水平字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后的字串进行评分处理,选择评分最高的字串,即可将切字错误自动更正。

除此之外,本发明还提供一种文书辨识的切字错误自动更正装置,用以根据一竖写文书的候选字矩阵进行切字错误更正,上述候选字矩阵是经由文字辨识后所产生,它包括:一垂直字元分合装置,接收上述候选字矩阵,根据一垂直字形结构表,将其扩展为扩充候选字矩阵,藉以表示上述候选字矩阵中字元分割及字元合并的情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后的字串进行评分处理,选择其评分最高的字串,以将切字错误自动更正。

为让本发明的上述目的、特征、和优点能更明显易懂,本文特举一具体实施例,并配合附图,作详细说明如下:

附图简要说明:

图1为熟知文书辨识方法的流程图。

图2为本发明的切字错误自动更正方法的流程图。

图3为本发明的切字错误自动更正装置的方块图。

图4为本发明所采用的左右分离和上下分离的部分字形范例表。

一般切字错误是产生于文书辨识中的前处理步骤,而本发明的切字错误自动更正方法则是在进行后处理步骤前,将候选字矩阵依分割情况及合并情况扩展为扩充候选字矩阵,以自动更正切字错误。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/96100537.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top