[发明专利]基于组合分类器的手写识别方法无效
| 申请号: | 200810062115.8 | 申请日: | 2008-05-29 |
| 公开(公告)号: | CN101290659A | 公开(公告)日: | 2008-10-22 |
| 发明(设计)人: | 何加铭;沈钱波;贾德祥;杨任尔;曾兴斌 | 申请(专利权)人: | 宁波新然电子信息科技发展有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/36;G06K9/46 |
| 代理公司: | 宁波海曙奥圣专利代理事务所 | 代理人: | 程晓明 |
| 地址: | 315010浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 组合 分类 手写 识别 方法 | ||
技术领域
本发明涉及一种手写识别处理技术,尤其是涉及一种基于组合分类器的手写识别方法。
背景技术
2005年5月25日中国发明专利“手写识别的方法与系统”(公开号为CN 1619583A)公开了一种手写识别的方法和系统,其对于识别包含多个笔画的表意汉字尤其有效,这些笔画通常是根据标准顺序书写的。该方法包括接收书写在电子设备的用户接口上的手写输入汉字的表示,然后从输入汉字中提取方向特征向量和笔划段特征向量,将方向特征向量与模型汉字对比从而提供一个短的侯选汉字列表以及相应的第一置信分数,再将上述与笔划段特征向量进行对比得出第二置信分数,最后通过两个置信分数合并来确定匹配的侯选汉字。通过该方法能够较有效地实现手写输入汉字的识别,但该方法对手写输入汉字进行平滑、噪声删除及大小归一化预处理后,在后续训练识别中可能会产生较大的误差;在最后用于识别的分类器设计上仅考虑了笔划段,对于连笔、书写变形、字形结构复杂等现象没有采取其他技术手段,使得对于处理上述情况时候没有很好的方法;此外,该方法的搜索效率较低。
发明内容
本发明所要解决的技术问题是提供一种搜索效率较高、识别率较高,且对于连笔、书写变形和字形结构复杂的手写输入汉字能够较好地识别的基于组合分类器的手写汉字识别方法。
本发明解决上述技术问题所采用的技术方案为:一种基于组合分类器的手写汉字识别方法,该方法包括以下步骤:第①步,接收书写在手写输入设备的用户接口上的手写输入汉字;第②步,对手写输入汉字进行预处理;第③步,从预处理后的手写输入汉字中提取汉字的特征向量;第④步,将汉字的特征向量通过组合分类器与模型汉字进行对比识别,并确定匹配的候选汉字;在所述的第②步中的预处理中增加离群点剔除处理,使所述的第②步的具体步骤为:第②-1步,对采集到的手写输入汉字的笔段进行平滑滤波、噪声剔除和重采样处理;第②-2步,对经过第②-1步处理后得到的手写输入汉字的笔段进行数据线性归一化处理;第②-3步,对数据线性归一化处理后得到的手写输入汉字进行离群点剔除处理,这样处理有利于拐点,即笔划的转折点的提取以及笔段的正确输入,有效地避免了在后续训练识别中产生误差;所述的第③步中的汉字的特征向量包括笔段特征向量和整字特征向量,所述的笔段特征向量的提取的具体步骤如下:第③-1步,建立基本笔段类型及与基本笔段类型相对应的参数特征;第③-2步,提取预处理后的手写输入汉字的笔段;第③-3步,根据提取的手写输入汉字的笔段与笔段的连接状态建立前后笔段的连接关系,所述的连接关系包括相连、相交和相离,对一些实际应该相连而因人们的书写习惯产生相离的,识别后做相连处理,可以很好的区分一些比较接近的汉字;再根据手写输入汉字的笔段的类型和前后笔段的连接关系去除部分无效笔段,有效的解决了书写变形问题,提高了手写的识别率;第③-4步,根据提取的手写输入汉字的笔段,判断笔段是否有违反书写方法,如果违反了书写方法,则自动删除该笔段,否则,对该笔段不作处理,有效的解决了连笔输入的识别问题;所述的整字特征向量的提取的具体步骤如下:将手写输入汉字的各笔段端点相连后求取Freeman链码,将Freeman链码确定为一组观测序列,Freeman链码是像素与像素之间的方位码,它根据汉字8个方向的编码有效的描绘了汉字特征,不易受噪声干扰。
所述的第②-3步中的所述的离群点为偏离所述的手写输入汉字的笔段大于设定的阈值的点。
所述的第③-1步中的所述的基本笔段类型包括横、竖、撇、捺、提、勾和点,所述的参数特征包括采样点的时间间隔、笔段方向和笔段长度。
所述的第③-3步中的所述的相连包括前笔段起点与后笔段起点相连、前笔段起点与后笔段终点相连、前笔段终点与后笔段起点相连、前笔段终点与后笔段终点相连、前笔段中间点与后笔段起点相连、前笔段起点与后笔段中间点相连、前笔段终点与后笔段中间点相连和前笔段中间点与后笔段终点相连;所述的相交包括中间点与中间点相交;所述的相离包括相邻笔段之间的相离和实际相连书写相离。
所述的第③-4步中的所述的书写方法的具体定义如下:左至右为横,上至下为竖,右至左、上至下为撇,左至右、上至下为捺或点,左至右、下至上为提,右至左、下至上为勾。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波新然电子信息科技发展有限公司,未经宁波新然电子信息科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810062115.8/2.html,转载请声明来源钻瓜专利网。





