[发明专利]基于深层卷积神经网络的离线手写汉字体识别方法在审
申请号: | 201810485688.5 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108764242A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 陆成刚;黄成斌 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 汉字体 汉字 离线 手写 分割 图片 读取 输出结果 图像采集 归一化 图片组 读入 像素 放大 图像 压缩 统一 | ||
一种基于深层卷积神经网络的离线手写汉字体识别方法,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果本发明提供了一种提升识别效果的基于深层卷积神经网络的离线手写汉字体识别方法。
技术领域
本发明属于图像分类技术领域,具体是一种基于深层卷积神经网络的离线手写汉字体识别方法
背景技术
离线手写汉字识别是模式识别领域中的一个子方向。离线是指所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图。在手写体研究领域中,Casey和Nag在1966年用模板匹配发成功识别出了1000个印刷体汉字。20世纪70年代末,离线手写体汉字识别研究已经引起了广泛的社会关注。不同于英文识别,汉字识别非常困难,其困难点有如下几点:汉字类别多(常用汉字就有6000多个),汉字结构体复杂(包括横竖撇点折),汉字字形变化多,相似汉字多等。
对于汉字的识别,主要有两大类:特征提取和分类器设计。特征提取在20世纪学者研究的比较多,其主要有根据特征点提取、笔画结构等等方法分类识别。汉字识别中,除了对特征的提取,就是利用分类器进行汉字识别。有学者曾研究过SVM模型去分类,但其效果一般,在识别种类较多的情况下效果不佳。
发明内容
为了克服已有离线手写汉字体识别方法的识别效果不佳的不足,本发明提供了一种提升识别效果的基于深层卷积神经网络的离线手写汉字体识别方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深层卷积神经网络的离线手写汉字体识别方法,包括以下步骤:
1)对汉字图像采集以及读取;
2)对图像进行处理,过程如下:
2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;
2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;
3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果;
所述深层卷积神经网络包含3个卷积层、3个池化层、1个全连接层以及1个softmax层,输入一个64*64像素且含有单一汉字的图片,经过卷积层1产生64个64*64的矩阵,经过池化层1后产生64个32*32的矩阵,经过卷积层2、池化层2、卷积层3、池化层3后产生256个8*8的矩阵,再经过全连接层产生1个1*1024的矩阵,最后经过softmax层输出属于各种类别汉字的概率。
进一步,所述步骤3)中,所述深层卷积神经网络中,在最后的输出种类做调整,因为在后面的训练数据库中包含3755个汉字种类,所以输出3755个汉字种类;
Softmax函数表达式如下:
其中,pi表示经过Softmax函数后,图片属于第i个类别的概率;M表示识别的种类数;
ReLU激活函数表达式为:
f(x)=max(x,0)
池化方式中的max-pooling指采用最大值池化,在进行卷积的过程中,在图像边界进行填充,填充值为0,当进行卷积操作时会考虑周围填充的图像像素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810485688.5/2.html,转载请声明来源钻瓜专利网。