[发明专利]一种区分颜色的手写体汉字提取方法有效
申请号: | 201810984203.7 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109271882B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 彭艺;尹玉梅;祁俊辉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 区分 颜色 手写体 汉字 提取 方法 | ||
本发明涉及一种区分颜色的手写体汉字提取方法,属于图像文字处理技术领域。本发明获取具有多种颜色手写体汉字的图片后,首先进行灰度化、二值化处理,去除多余痕迹;然后利用均值滤波去除图片中的高斯加性白噪声,再次利用二值化去除图片中的背景信息;接着利用阈值逼近法对汉字进行行分割、列分割等操作,再对其进行单字符归一化处理和细化处理,并对其进行特征提取;最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离,选择对应距离最小的字符识别输出。本发明增加了当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。
技术领域
本发明涉及一种区分颜色的手写体汉字提取方法,属于图像文字处理技术领域。
背景技术
中小学生在平时写作业时,老师批改到比较好的作文,家长认为有保存价值,就想将其做成电子档,若用人工操作方式,不仅效率低还容易出错。若能够利用计算机技术实现去除老师批改痕迹后的作文并将其识别出来作为电子档保存,则具有很大的实用意义和现实意义。
目前,对于去除图片上的多余痕迹,主要依靠Photoshop技术,这一工作既耗时又繁琐,并且对个人的操作能力还有严格的要求,导致并没有大范围的流行开来。倘若采用一种智能的方法,就完全可以避免这些问题。现在对手写体汉字识别的技术也在逐步成熟,运用的领域也越来越广,将其运用到日常生活中,无疑会给人们的生活带来极大的方便。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种区分颜色的手写体汉字提取方法,以解决现有技术对具有多种颜色手写体汉字进行识别时,针对性差、效率低等现象,致力于增加当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。
本发明的技术方案是:一种区分颜色的手写体汉字提取方法,其特征在于:获取具有多种颜色手写体汉字的图片后,首先进行灰度化、二值化处理,去除多余痕迹;然后利用均值滤波去除图片中的高斯加性白噪声,再次利用二值化去除图片中的背景信息;接着利用阈值逼近法对汉字进行行分割、列分割等操作,再对其进行单字符归一化处理和细化处理,并对其进行特征提取;最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离,选择对应距离最小的字符识别输出。
具体步骤为:
Step1:采集老师批改后的手写体汉字作文图片{P1,P2,…,PN},并将其生成数据库P存储在电脑本地;
Step2:对图片Pi,i∈[1,N]进行灰度化处理后,利用阈值M1进行二值化阈值处理,去除老师的批改痕迹,得到新的图片P′i,i∈[1,N],并生成新的数据库P′;
Step3:对图片P′i,i∈[1,N]进行图片预处理,包括平滑去噪、二值化、行字切分、归一化和细化,具体如Step3.1~Step3.5所示;
Step3.1:平滑去噪;采用均值滤波法将图片P′i,i∈[1,N]中的高频成分滤除;
Step3.2:二值化;将图片P′i,i∈[1,N]利用阈值M2进行二值化阈值处理,从而保留图片中的汉字而去除图片中的背景;
Step3.3:行字切分;采用阈值逼近算法进行行分割,在此基础上进行字分割,考虑到手写字有重叠、连体等情况出现,采用分割线细化算法、消除过分割算法和交叠字断笔处理算法这三种算法来具体实现字分割,得到单个字符数据Q:{q1,q2,…,qn,…,qm};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810984203.7/2.html,转载请声明来源钻瓜专利网。