[发明专利]基于鉴别归一化的手写汉字识别方法有效
申请号: | 201210225810.8 | 申请日: | 2012-07-03 |
公开(公告)号: | CN102831434A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 朱远平;何源;孙俊 | 申请(专利权)人: | 天津师范大学;富士通株式会社 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/20 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 鉴别 归一化 手写 汉字 识别 方法 | ||
技术领域
本发明属于模式识别学科技术领域,特别是涉及一种手写汉字的识别方法。
背景技术
手写汉字识别在办公自动化、文档数字化、人机交互等领域有着广泛需求。但高精度的手写汉字识别是文字识别领域中的一个困难的命题,制约着其实际应用范围。手写汉字识别困难的根本原因在于手写汉字样本往往具有较显著的变形情况,这导致相同汉字在形状分布上不紧致。结合汉字的大类别情况,高精度地识别手写汉字并不容易。为了弥补字符形变问题,字符图像归一化试图将同一汉字的样本向统一的形状模式逼近,从而有效提高手写汉字的识别效果,也是手写汉字识别中不可或缺的环节。鉴别信息是区分不同字符样本的重要信息,其来源于不同字符间的不相似性,对于识别过程很重要。传统的字符图像归一化方法对所有的字符样本采用同样的规则处理,没有考虑字符间的鉴别信息,不利于进一步提高手写汉字的识别性能,尤其对于相似字之间的识别经常出现错误。
发明内容
本发明就是为了解决上述现有技术中的问题,而提供一种基于鉴别归一化的手写汉字识别方法,目的在于将鉴别信息结合到字符图像归一化中,从而使得在归一化后的相似字在识别中更容易被区分开来,降低识别错误率。
本发明是按以下技术方案实现的:
一种基于鉴别归一化的手写汉字识别方法,包括训练部分和识别部分两大部分;其中,训练部分包括如下步骤:
步骤1.1 创建相似字表:在汉字字符集中寻找相似字,并构建相似字表;
步骤1.2 相似字显著性区域检测,即对相似字的不相似部分进行检测;
步骤1.3 创建归一化模型字典:将相似字表和各相似字对的显著性区域的中心和尺寸参数等信息记录在字典文件中;
步骤1.4 相似字分类器训练:为上述相似字表中每一对相似字创建一个两类分类器,专门用于区分对应的两个相似字;
识别部分包括如下步骤:
步骤2.1 初始识别:用普通的手写汉字识别器对待识别字符样本进行初始识别,获得该字符样本的汉字识别候选结果;
步骤2.2 相似字搜索:搜索相似字表,找到初始识别结果的前二候选构成的字符对在相似字表中的匹配字对;
步骤2.3 字符图像变换:利用相似字间的鉴别信息对上一步骤中的找到的相似字表中的匹配字对执行鉴别归一化,增加显著性区域在字符图像中所占尺寸比例;
步骤2.4 相似字识别:将在变换后的图像上进行相似字识别,只对前二候选构成的字符对中的两个字符进行识别,所用的分类器为步骤1.4中生成的相似字两类分类器。
其中,相似字显著性区域检测包括如下三个步骤:
步骤1.2.1 初始字符图像归一化:采用普通的字符图像归一化方法作为预处理,改善字符图像形状分布上的紧致性;
步骤1.2.2 字符特征抽取:将每一点的字符特征用坐标点的形式进行表示;
步骤1.2.3:显著性区域分析:
显著性区域建立在不相似区域上,利用字符特征差异图发现不相似区域,用Tm(i,j,k), Tn(i,j,k)分别表示字符Cm和Cn的特征模板,则字符特征差异图表示为:
(1)
令其方差为δ2;满足下面条件的分格被视为不相似分格,即
(2)
(3)
合理的t值一般可取[-2.0,2.0]之间。
不相似分格组成不相似区域,显著性区域(Saliency Region--SR)被定义为覆盖在不相似分格上的矩形区域,字符图像中非显著性区域部分即为相似区域。
根据不相似分格检测结果,计算不相似区域的矩m00,m10,m01和中心矩μ20,μ02,则不相似区域的中心和轴长分别为:
(4)
(5)
根据不相似区域中心位置,将显著性区域分成9种类型,其中心为不相似区域中心,长宽分别为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学;富士通株式会社,未经天津师范大学;富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210225810.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于整理发电机定子引线的剪线机
- 下一篇:一种刚度可匹配橡胶支撑轴承