[发明专利]一种区分颜色的手写体汉字提取方法有效
申请号: | 201810984203.7 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109271882B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 彭艺;尹玉梅;祁俊辉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种区分颜色的手写体汉字提取方法,属于图像文字处理技术领域。本发明获取具有多种颜色手写体汉字的图片后,首先进行灰度化、二值化处理,去除多余痕迹;然后利用均值滤波去除图片中的高斯加性白噪声,再次利用二值化去除图片中的背景信息;接着利用阈值逼近法对汉字进行行分割、列分割等操作,再对其进行单字符归一化处理和细化处理,并对其进行特征提取;最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离,选择对应距离最小的字符识别输出。本发明增加了当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。 | ||
搜索关键词: | 一种 区分 颜色 手写体 汉字 提取 方法 | ||
【主权项】:
1.一种区分颜色的手写体汉字提取方法,其特征在于:获取具有多种颜色手写体汉字的图片后,首先进行灰度化、二值化处理,去除多余痕迹;然后利用均值滤波去除图片中的高斯加性白噪声,再次利用二值化去除图片中的背景信息;接着利用阈值逼近法对汉字进行行分割、列分割等操作,再对其进行单字符归一化处理和细化处理,并对其进行特征提取;最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离,选择对应距离最小的字符识别输出;具体步骤为:Step1:采集老师批改后的手写体汉字作文图片{P1,P2,…,PN},并将其生成数据库P存储在电脑本地;Step2:对图片Pi,i∈[1,N]进行灰度化处理后,利用阈值M1进行二值化阈值处理,去除老师的批改痕迹,得到新的图片Pi′,i∈[1,N],并生成新的数据库P′;Step3:对图片Pi′,i∈[1,N]进行图片预处理,包括平滑去噪、二值化、行字切分、归一化和细化,具体如Step3.1~Step3.5所示;Step3.1:平滑去噪;采用均值滤波法将图片Pi′,i∈[1,N]中的高频成分滤除;Step3.2:二值化;将图片Pi′,i∈[1,N]利用阈值M2进行二值化阈值处理,从而保留图片中的汉字而去除图片中的背景;Step3.3:行字切分;采用阈值逼近算法进行行分割,在此基础上进行字分割,考虑到手写字有重叠、连体等情况出现,采用分割线细化算法、消除过分割算法和交叠字断笔处理算法这三种算法来具体实现字分割,得到单个字符数据Q:{q1,q2,…,qn,…,qm};Step3.4:归一化;汉字经过行字切分后,得到的特征块大小不一,故采取归一化操作来统一特征块图像的尺寸,得到归一化的单个字符数据Q′:{q1′,q2′,…,qn′,…,qm′};Step3.5:细化;采用查表法对数据Q′进行细化,得到细化后的单个字符数据Q″:{q1″,q2″,…,qn″,…,qm″};Step4:对数据Q″中的汉字进行基于弹性网格的特征提取,包括粗外围特征提取、外轮廓特征提取、内轮廓提取和方向像素特征提取,具体如Step4.1~Step4.4所示;Step4.1:粗外围特征提取;首先对Q″中的骨架图像进行内部区域填充处理,若像素点P为白色,则检测其上下左右四个方向是否有笔画,若都有笔画则认为该点为内部区域,将白色置为黑色,依次处理完所有白点;然后将填充图分成4×4共16个小块,统计每一小块黑色点数数量,构成16维粗外围特征;Step4.2:外轮廓特征提取;对Q″中的图像沿上下左右4个方向进行扫描,用弹性网格对扫描区域进行划分,统计每个区域第一次碰到笔画的面积,每个方向被分为了4个区域,每个区域阴影面积是1维特征,处理后,得到4×4=16维特征;Step4.3:内轮廓提取;对Q″中的图像沿上下左右4个方向扫描,扫描方式同外轮廓特征提取,统计第一次穿过笔画与第二次再次碰到笔画之间的面积,构成16维内轮廓特征;Step4.4:方向像素特征提取;对Q′中的图像进行一阶微分运算,得到汉字的外部轮廓线图像;将外轮廓线图像分成8×8=64个区域,统计每个小块中有效像素的方向线素累积和;Step5:识别输出;最小距离分类器在特征空间中,用一个基准模板作为某一模式类的代表把待识别样本的特征向量与此基准模板之间的距离作为实现分类判决的依据,并将待识别样本与第Ι类基准样本的最小距离作为识别结果;采用马氏距离dm(X,μi)来对距离进行测量,其具体表达式如式(1)所示;
其中,X=(x1,x2,…,xn)T表示待识别样本A的特征向量,μi=(μi1,μi2,…,μin)T表示第Ι类模式的均值向量,σi=(σi1,σi2,…,σin)T表示第Ι类模式的均方差。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810984203.7/,转载请声明来源钻瓜专利网。