[发明专利]页式联想汉字识别系统无效

申请号：	90107382.2	申请日：	1990-08-29
公开（公告）号：	CN1059415A	公开（公告）日：	1992-03-11
发明（设计）人：	郭宝兰;张彩录;卫颖丽;张宇桐	申请（专利权）人：	河北大学
主分类号：	G06K9/72	分类号：	G06K9/72
代理公司：	河北省专利事务所	代理人：	刘仲辰
地址：	071002 河北省保定***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	联想汉字识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于采用光学方法的汉字识别输入技术领域，是一种页式联想汉字识别系统。

目前，国内外诸多的汉字识别系统，无论是对单体、两种以上印刷体混排或联机手写汉字等文本进行识别，均着重于将文本中的字词、词和短语做为字符串图形，依据其笔段、笔划、字根等字形特征对各个汉字做孤立的配比、判识，而较少见利用文本中相邻汉字的相关性为主的汉字识别系统。如：清华大学的“印刷汉字识别装置”（CN85100085A），辽宁王雅延的“印刷汉字识别方法”（CN85105586A）和各种类型的“图文扫描仪”等。由于这些识别系统的汉字文本信源为无记忆的“单信原模型结构”，故其相应的“识别字典”的结构适应性差，容量大，这就限制了各识别系统在实际应用中的判识性能，致使其识别程序内存容量较大，识别率难以提高，识别速度一般仅在5字/秒以下。

本发明的目的在于提供一种以“双信源识别字典”结构为基础的联想汉字识别系统，该系统由于充分利用了实际文本中汉字间的概率约束关系作为汉字联想判识，使其具有机动灵活、容量小等显著特点，并易于引入现有的汉字识别系统，以提高汉字识别率、识别速度和减小应用软件的容量。

页式联想汉字识别系统的整体结构是：“以双信源模字典”为依据编制判识汉字的应用软件，并与特定的“计算机系统软件”组成该系统的软件部分;其硬件设备为配接有汉卡的计算机主机和扫描仪、显示器、打印机等。

该系统的应用软件结构是：

“双信源模型字典”以“联想识别树”、“特征识别树”为主构成，其中的“联想识别树”是对应单纯“MARKOV信源模型”的树状数据结构，即：对文本中某汉字的判识只依赖于其前或其后的一个汉字，分为“前导联想”和“后续联想”，以进行引导识别和相近字的识别;“特征识别树”是用于引导对汉字进行特征识别的树状数据结构，在该结构中使用了汉字的纵向、横向分块特征，长笔道分布特征，边框特征、二次白特征等;在该系统中以经过“联想识别处理”和“特征识别处理”做为汉字的一、二次背景特征对汉字进行最后判识;该系统以C语言编制识别程序，还采用“主菜单”提示方式完成整页文本的扫描输入或通过予扫描直接指定输入区域，其扫描文本的最大尺寸为A4页面，并可进行版面分析和行字切分等输入功能。

其硬件设备可以是：配接中科院计算所Ⅲ型汉卡的CHIPS-386主机，CC-1435型彩色显示器，东芝3070型打印机和理光IS-30扫描仪，其“计算机系统软件”为DOS3、3。

该系统识别的字体为6号以上的宋体印刷汉字，识别字域是以国际一级字为基础的开放式识别字域，字数大于3755。

本发明的附图有：

图1是：相关识别树示意图。

图2是汉字联想识别的程序框图。

图3是：识别系统的应用软件结构框图。

图4是：识别系统的硬件结构框图。

结合附图对本发明的汉字识别功能说明如下：

该系统的基本工作流程如图3所示，虚线框内为“双信源模字典结构”。

1、归一化及特征提取：

首先由扫描输入部分完成整页文本的输入，并通过予扫描确定输入区域。“版面分析和行切分”部分完成附属域的排除，实现文本块的“行切分”。

在对文本块完成行切分后，进行字切分处理。在字切分同时，区别出标点符号并将其送至标点识别部分。

归一化及特征提取部分是对汉字进展归一化处理并同时完成对汉字的特征提取。经过归一化和特征提取的汉字，根据标记，确定是否属联想汉字范围。

2、联想判别处理：

对属于联想范围的汉字送入联想判识处理，联想判识处理过程主要是循环联想识别树的路径进行的。联想识别树的“字典”结构如图1所示，在联想识别树中，“树根”对应联想功能始点，每个引导字在树上引出一个“枝”，一个终端联想字对应树上一个“叶子”，联想识别的处理程序如图2所示。在该页式联想汉字识别系统中，目前，只设计成单纯联想功能，即对某汉字的联想判识只取决于其前或其后的一个汉字进行前导联想和后续联想。其中，前导联想用于引导识别，而对相近字，则既使用前导联想，也使用后续联想。

3、特征判识处理：

对于本文中每段的第一个字，一句话的开头字或在一句话中某些与前、后字的约束关系不很强的汉字，也就是说，当一个字的联想判识超出了单纯一重马尔科夫信息源系统，而需要多重马尔科夫信息源处理系统才能准确判断时，如“使”与“便”两个相近字在文本中可以有“可以使”和“以便”两种可能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河北大学，未经河北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/90107382.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]页式联想汉字识别系统无效

专利文献下载