[发明专利]一种脱机手写体汉字识别方法无效
申请号: | 201210178849.9 | 申请日: | 2012-06-01 |
公开(公告)号: | CN102750556A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 马丕明;张璇 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/60 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 脱机 手写体 汉字 识别 方法 | ||
技术领域
本发明属于手写体汉字识别技术领域,特别是涉及一种脱机手写体汉字识别笔画特征的提取方法。
背景技术
脱机手写体汉字识别在以下领域中具有广泛的应用前途:
(1)信息处理领域中使用汉字识别技术可以大大提高纸质文档电子化的效率。若将汉字识别的准确度和速度均提高到比人工输入更高的程度,便可在提高效率的同时节省人力资源。
(2)汉字自动识别是办公自动化、新闻出版等最理想的输入方法。
(3)很大部分电子文献是以点阵图像存储的,经过汉字识别后以字符存储,会大大节省存储空间,并提高网络传输速度。
和所有模式识别系统一样,脱机手写体汉字识别的主要性能指标是正确识别率和识别速度,从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。对识别系统识别率和识别速度,很难有一种统一的、严格的标准,主要根据实际应用的需要来确定。但是作为一种输入手段,汉字识别系统的性能至少应该可以和其它输入手段(如人工输入)相比拟。河北大学的贾新彪的研究生论文《基于笔画结构特征的脱机手写汉字识别》(2010年6月)提出了一种汉字识别的方法,但该方法识别提取汉字特征复杂、识别速度慢。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提出一种脱机手写体汉字识别方法,以解决识别提取汉字复杂、识别速度慢的问题,使得汉字特征提取简单、识别速率相对较高。
为了实现上述发明目的,本发明采用的技术方案如下:
一种脱机手写体汉字识别方法,步骤如下:
1)数据采集
识别过程中所用到的手写体汉字图像数据预先由手写体设备手机、ipad书写,输入电脑中存储备用;
2)预处理
对于一副待识别的汉字图像进行预处理,包括平滑去噪、二值化、行字切分、图像归一化和细化;
a.平滑去噪
由于汉字噪声大部分是高斯加性白噪声,故此处选择高斯低通滤波器来完成汉字图像的平滑去噪处理;
b.二值化
二值化采用阈值法,对于灰度图像中每个像素的取值范围是0-255,设定阈值为0.5,则图像数据中像素凡是超过255×0.5=127.5的都变为1,否则都变为0;
c.行字切分
对汉字图像先从左至右逐列扫描,将笔画像素值累加,获得竖直投影,后从上到下逐行扫描,同样将笔画像素值累加,获取图像的水平投影,利用汉字行列间空白间隔造成的水平和竖直投影空隙,将行、字分割,得到单个汉字;
d.图像归一化
对汉字进行归一化处理,消除汉字在位置和大小上的变化,先判断汉字点阵的上、下、左、右的外围边框,然后利用双线性内插法将汉字线性放大或缩小成64×64大小的点阵,以备后续处理;
e.细化
采用5×5大小的像素模板,对各像素自左至右、从上到下分别标记像素为:P1,P2,…,P25,其中P13是位于中心的像素点的像素,对于P13=1(即黑色像素值),如果同时满足下面四个条件,则删除P13,即P13=0,
①2≤N(P13)≤6,其中N(P13)是P13周围非零邻点的个数;
②Z0(P13)=1,其中Z0(P13)是以P13周围P7,P8,P9,P14…,P12逆时针为序时这些像素点的值从0到1变化的次数;
③P8*P12*P14=0或者Z0(P8)≠1,其中Z0(P8)是以P8周围P2,P3,P4,P9,…,P7逆时针为序时这些像素点的值从0到1变化的次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210178849.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光齿段内啮合盘式座椅调角器核心装置
- 下一篇:灯具