[发明专利]一种基于卷积神经网络的汉字识别方法在审
申请号: | 201611009032.3 | 申请日: | 2016-11-16 |
公开(公告)号: | CN106650748A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 鲁统伟;缪少君;彭玲;刘仁军;吴梦露;张彦铎;李晓林;卢涛;闵锋;李迅;周华兵;朱锐 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 湖北武汉永嘉专利代理有限公司42102 | 代理人: | 唐万荣 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 汉字 识别 方法 | ||
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于卷积神经网络的汉字识别方法。
背景技术
利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。以及文档检索,各类证件识别,方便用户快速录入信息,提高各行各业的工作效率。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于卷积神经网络的汉字识别方法。
本发明解决其技术问题所采用的技术方案是:一种基于卷积神经网络的汉字识别方法,包括以下步骤:
1)采集训练用的文本图像;
2)图像预处理:首先对图像进行非均匀光照调整,然后将图像转换为灰度图像
3)对预处理的图像进行特征提取:
采用Gabor滤波器提取图像八个方向的Gabor特征,八个方向分别是0°,22.5°,45°,67.5°,90°,112.5°,135°,157.5°;
其中Gabor滤波器的公式如下所示:
其中,σ=π,M为方向数目,ι表示波长,表示方向;
4)通过训练获得最终识别模型:将经过预处理的图像和经过Gabor特征提取的图像一起作为输入,输入卷积神经网络,所述卷积神经网络结构包括两层卷积层,一层多卷积层的神经网络,并在神经网络的输入层和隐藏层,均使用Dropout技术;
选取测试识别正确率最高的卷积神经网络模型,作为最终识别模型;
5)文字识别:对待识别的文本图像进行如步骤2)的图像预处理,采用训练所得的卷积神经网络模型进行识别,输出类别,匹配标签中汉字类别,输出汉字识别结果。
按上述方案,所述步骤2)中利用公式对图像进行非均匀光照调整;公式中,I'是进行调整后该点的像素值,C是图像中心位置的像素值,BG是进行中值滤波后的图像中该点的像素值,I是原始图像在该点的像素值。
按上述方案,所述步骤4)中,在神经网络的输入层和隐藏层,均使用Dropout技术。
本发明产生的有益效果是:
(1)本发明中,在图像预处理过程中,调整图像背景,减少因为光照不均匀,造成的识别错误的情况。
(2)本发明中,将提取方向特征图作为先验知识,和原始图像一起作为输入层的数据输入,以增强神经网络的识别性能,提高了汉字的识别率;且最终模型较小,计算速度快。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的神经网络的具体结构图;
图3是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于卷积神经网络的汉字识别的方法,包括以下步骤:
1)采集训练用的的文本图像;
2)图像预处理:利用公式对图像进行非均匀光照调整、将图像转换为灰度图像;公式中,I'是进行调整后该点的像素值,C是图像中心位置的像素值,BG是进行中值滤波后的图像中该点的像素值,I是原始图像在该点的像素值。
3)对预处理的图像进行特征提取:
采用Gabor滤波器提取图像八个方向的Gabor特征,充分显示了Gabor滤波器的多分辨性。八个方向分别是0°,22.5°,45°,67.5°,90°,112.5°,135°,157.5°;波长为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611009032.3/2.html,转载请声明来源钻瓜专利网。