[发明专利]一种基于CNN的手写中文文本识别方法在审
| 申请号: | 201811495474.2 | 申请日: | 2018-12-07 |
| 公开(公告)号: | CN109740605A | 公开(公告)日: | 2019-05-10 |
| 发明(设计)人: | 何凯;黄婉蓉;冯旭;高圣楠 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文文本 手写 卷积神经网络 再利用 分割 中文 二值化处理 单个文字 横向扫描 空白像素 框架构造 扫描处理 算法结合 文本图片 文字分割 自动识别 纵向扫描 灰度化 连接层 训练集 直方图 池化 构建 卷积 投影 图片 纠正 | ||
1.一种基于CNN的手写中文文本识别方法,其特征在于,所述方法将单个手写中文识别与文字分割算法结合起来,实现了手写中文文本的自动识别,所述方法包括以下步骤:
对文本图片进行灰度化、二值化处理,再利用直方图投影对中文文本进行分割;先通过横向扫描分割出单行文字,再利用纵向扫描分割出单个文字;
对单个中文图片进行扫描处理,对中文进行正射纠正,并使其位于图片中间位置,上下左右各留出10个空白像素;
基于TensorFlow框架构造一个包括:4个卷积层、4个池化层和2个全连接层的卷积神经网络,利用训练集进行训练;输入待测图片,根据构建的卷积神经网络进行识别。
2.根据权利要求1所述的一种基于CNN的手写中文文本识别方法,其特征在于,所述4个卷积层、4个池化层和2个全连接层的卷积神经网络具体为:
layer1为卷积层,采用64个3×3的卷积核对输入图像做卷积,输出64个64×64的特征图像;
layer2为池化层,输入layer1的输出图像,池化窗口大小为2×2,步长设为2×2,选择填充方式为SAME,故64个大小为64×64的图像,经layer2计算后输出为64个大小为32×32的特征图像;
layer3为卷积层,采用128个3×3的卷积核对layer2的输出图像做卷积,输出是128个大小为32×32的特征图像;
layer4为池化层,输入为layer3的输出图像,池化窗口大小为2×2,步长设为2×2,选择填充方式为SAME,故128个大小为32×32的图像,经layer4计算后输出为128个大小为16×16的特征图像;
layer5为卷积层,采用256个3×3的卷积核对layer4的输出图像做卷积,输出是256个大小为16×16的特征图像;
layer6为池化层,输入为layer5的输出图像,池化窗口大小为2×2,步长设为2×2,选择padding方式为SAME,故256个大小为16×16的图像,经layer6计算后输出为256个大小为8×8的特征图像;
layer7为卷积层,采用512个3×3的卷积核对layer6的输出图像做卷积,输出是512个大小为8×8的特征图像;
layer8为池化层,输入为layer7的输出图像,池化窗口大小为2×2,步长设为2×2,选择padding方式为SAME;经layer8计算后输出为512个大小为4×4的特征图像;
layer9为全连接层,输入为上一层的输出图像,输出为1024个神经元,在进入下一层之前,再次做Dropout处理,Dropout率仍为0.8;
layer10为全连接层,输入为layer9的输出,输出为3755个神经元,用于执行最终的识别。
3.根据权利要求2所述的一种基于CNN的手写中文文本识别方法,其特征在于,
在layer8的输出图像进入下一个网络层之前,为防止网络模型过拟合,先对layer8的输出特征图像做Dropout处理,Dropout率设为0.8。
4.根据权利要求2所述的一种基于CNN的手写中文文本识别方法,其特征在于,4个池化层均采用最大池化计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495474.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种行驶区域检测的方法和设备
- 下一篇:一种图像识别方法及装置





