[发明专利]多字体多字号的基于彝文字符集的印刷体字符识别方法有效
申请号: | 200810047813.0 | 申请日: | 2008-05-23 |
公开(公告)号: | CN101286202A | 公开(公告)日: | 2008-10-15 |
发明(设计)人: | 朱宗晓;吴显礼;刘赛;田微;程立 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 武汉开元专利代理有限责任公司 | 代理人: | 唐正玉 |
地址: | 43007*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多字 基于 彝文 字符集 印刷体 字符 识别 方法 | ||
技术领域
本发明属于字符识别领域,具体涉及多字体多字号的基于彝文字符集的印刷体字符识别方法。
背景技术
抢救我们民族语言文字的一个重要途径就是实现民族文献文档的计算机自动识别录入,将记录各少数民族文化精髓的各种文献文档通过信息化处理进行传承。自1980年四川规范彝文在凉山彝族聚居区推行以来,规范彝文在以凉山彝语区为主的彝语北部方言和云南省宁蒗等小凉山的彝族地区得到广泛的使用和推广。在学校教育包括小学、初中、高中以及大中专门和高校的教育教学、文艺创作、电影电视翻译和广播、政府行文和政策法规、音乐创作等众多领域得到很好的使用,对彝族经济和文化建设产生了积极的推动作用。目前,大部分彝文输入方法的研究集中在键盘编码输入方式上,关于印刷体彝文识别输入的研究还是一个空白点,这严重地制约了信息技术在少数民族地区的普及和应用。针对这种现状,我们发明了基于多字体多字号彝文字符集的印刷体字符识别方法,该方法首先应用于印刷体彝文字符,但并不局限于彝文字符,可以很快推广到汉字、日文、朝鲜文等其他民族文字的文档识别工作中去。为彝文和其他类似民族文字的输入提供一种快捷便利的输入方式,这对继承和发展民族文化、促进民族地区的社会进步具有重要的意义。
所有的文字识别都是基于该文字的字符特征来进行的,大体上来说特征可以分成结构特征和统计特征两类。基于结构特征识别方法的基本思想是把字符图像分割简化为若干基元,如笔画、拓扑点、结构突变点等,与模板比较,检查必要的基元是否存在,不可有的基元是否出现,从而判断所属的类别。目前主要有针对骨架、轮廓、笔画得到结构基元的方法。结构方法易受各种噪音影响,鲁棒性不强,但容易区分相似字符,对字体变体变形适应性好。而统计特征是从原始数据中提取与分类最相关的信息,使得类内差距极小化,类间差距极大化。特征应对同一类字符类的形变尽量保持不变。统计方法抗噪声好,可推广性强。但如果统计特征的选取不科学,将很难区分相似字符。彝文共有1165个字符,它包括819个规范彝字,345个次高调字和1个替音字,次高调字与其对应的规范彝字在形态上只有细小差别,也即在彝文中存在大量的相似字。这对应用统计方法的字符识别带来挑战。
发明内容
本发明的目的在于实现一个多字体多字号的基于彝文字符集的印刷体字符识别的方法。以彝文印刷体书本、杂志等单页文档为处理对象,首先将该页文档扫描为计算机中的图片文件,对图片中的彝文字符和标点符号、英文字母、数字常用字符进行基于初分割、合并、再分割的字符分割处理,再对分割得到的每一个单个字符提取其基于周边方向贡献度的高维特征,然后特征压缩转换矩阵将高维特征压缩成低维特征,由基于低维特征的字典三级特征匹配完成字符分类判决。由此,可以得到极高的单字识别正确率。再经文档后处理环节组合还原成计算机文本,并提示该文本中可能识别出错的字符。根据该方法,实现了一个基于多字体、多字符彝文字符集的印刷体字符识别系统。
作为一个多字体、多字号的基于彝文字符集的印刷体字符识别系统还包括字体采集、特征字典的生成和验证。即系统首先大量扫描印刷体彝文字符的样本,采用批量处理的方式进行字符切割,利用采集建立的训练样本字符库进行基于周边方向贡献度的高维特征提取,由全体训练样本字符的高维特征变换出特征压缩转换矩阵,用该矩阵将全体训练样本字符的高维特征压缩为低维特征。由全体训练样本字符的低维特征集生成特征字典。再将全体训练样本字符的低维特征分别与特征字典进行三级匹配识别完成字符分类判决,由文件识别统计报告和字符识别统计报告验证了该特征字典的优劣,并提供字典修正的依据。
本发明包含如下内容:
样本准备、字符分割、特征提取、特征压缩、特征字典生成、三级距离匹配算法、识别结果统计、识别出错预警。
1、样本准备
本发明所使用的参与生成字典彝文字体样本包括12种字体,分别为:黑体、宋体、微软白体、SIL体,方正彝文白体、方正彝文细黑体、方正彝文宋体、方正彝文仿宋体、方正彝文黑体、方正彝文手写体、方正彝文圆头体、方正彝文综艺体。
对这12种字体均采用三号、五号两种字号,规则、加粗两种形式,原件、一次拷贝、二次拷贝三种处理模式,300DPI、400DPI两种扫描模式,得到288套样本扫描图片,然后准备在样本预处理过程中采用130、150、170三种浓度进行二值化采样,共得到864套大小、形态、粗细、浓淡、模糊程度不同的彝文字典样本参与生成彝文字典,总共彝文字符数量为864*1165=1006560个。
2、字符分割
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810047813.0/2.html,转载请声明来源钻瓜专利网。