[发明专利]一种基于深度学习的OCR文字识别方法有效

申请号：	202111044336.4	申请日：	2021-09-07
公开（公告）号：	CN113688821B	公开（公告）日：	2023-05-23
发明（设计）人：	王红蕾;李欢欢;徐小云;杨平;胡州明;朱海萍;吴豪;周平	申请（专利权）人：	四川中电启明星信息技术有限公司
主分类号：	G06V30/14	分类号：	G06V30/14;G06V20/62;G06V30/19;G06T3/00;G06T3/40;G06N3/044;G06N3/0464;G06N3/084
代理公司：	成都君合集专利代理事务所(普通合伙) 51228	代理人：	尹新路
地址：	610000 四川省成都市郫***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习 ocr 文字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的OCR文字识别方法，其特征在于，具体包括以下步骤：

步骤1：采集自然场景中包含文本的图像并进行图像标注后，将图像划分为训练集和测试集；

步骤2：搭建共享卷积神经网络，将预处理后图像输入到共享卷积神经网络中，得到共享特征图；

步骤3：搭建候选文本框提取网络，输入共享特征图到候选文本框提取网络中，得到具有不同旋转角度的候选文本框；

步骤4：实现候选文本框仿射变换；

步骤5：对仿射变换后的候选文本框进行文本检测；

所述文本检测过程是将经仿射变换得到的候选文本框输入到ROIPooling层中得到仿射变换候选文本框的特征，这些特征的大小固定且相同；再将所得特征输入到后续依次连接的两层全连接层和Softmax层中得的文本检测结果，同时进行候选文本框的位置回归得到更加准确的文本框位置坐标；

步骤6：利用RNN循环网络和CTC算法对文本检测结果进行文本识别；

步骤7：用步骤1中制作的数据集训练上述网络并进行OCR文本识别测试；

步骤2中的所述搭建共享卷积神经网络：

所述共享卷积神经网络设置有依次连接的5个卷积块Conv和3个反卷积块Deconv；且5个卷积块Conv中的中间的3个卷积块Conv与3个反卷积块Deconv还构成关于卷积块Conv5的对称结构，所述对称结构具体为：卷积块Conv4输出的特征图与反卷积块Deconv1输出的特征图相融合得到新特征图，并将新特征图作为下一个反卷积块Deconv2的输入；同理，卷积块Conv3输出的特征图与反卷积块Deconv2输出的特征图相融合得到新特征图并作为下一个反卷积块Deconv3的输入，卷积块Conv2输出的特征图与反卷积块Deconv3输出的特征图相融合得到共享特征图，且所得共享特征图的长宽是输入到该网络中的图像长宽的1/4；

每个所述卷积块Conv包括两个依次连接的卷积层，每个所述反卷积块Deconv中包括依次连接的一个反卷积层和一个卷积层；每个卷积层和反卷积层后都设置有一个激活函数Relu；利用卷积层进行卷积操作和特征降维，而不是利用下采样层进行特征降维，来保留了更多的图像像素信息，从而获得更具鲁棒性的图像特征；

步骤3中的所述候选文本框提取网络包括候选文本框构建网络层、候选文本框分类分支、候选文本框位置回归分支和自定义网络层；

所述步骤3具体步骤包括：

步骤3.1：将共享特征图送入候选文本框提取网络中，该网络首先利用候选文本框构建网络层在共享特征图上的每个像素点处进行卷积核为5×3和3×5的卷积操作，且分别获得水平方向上的和垂直方向上的特征并将这两个方向上的特征进行连接，同时为每个像素点配备63种不同尺度、不同长宽比以及不同旋转角度的候选文本框；

步骤:3.2：将候选文本框分别送入到候选文本框分类分支、候选文本框位置回归分支中进行分类处理和位置回归处理；

步骤3.3：将候选文本框分类分支、候选文本框位置回归分支的输出内容送入到自定义网络层中，并结合输入图像的信息判断产生的候选文本框是否超出图像边界，若候选文本框超出输入图像边界则剔除，同时微调符合要求的候选文本框的位置，得到最终的带角度的候选文本框；

所述由候选文本框构建网络层产生的候选文本框具有32^2、64^2、128^2共3种尺度，2:1、4:1、8:1共3种长宽比以及π/2、π/3、π/6、0、-π/6、-π/3、-π/2共7种旋转角度；并以一个5维的向量(x，y，w，h，θ)表示提取的每一个候选文本框，其中x和y表示候选文本框的中心坐标，用于确定候选文本框的位置；w和h表示候选文本框的宽和高，用于确定候选文本框的大小；θ表示预测的候选文本框相对于水平方向的旋转角度且旋转角度范围θ∈[π/2，-π/2]；其中，训练网络时，候选文本框提取网络利用候选文本框分类分支对候选文本框进行分类是将候选文本框分为包含文本的候选文本框和背景两类，且在判断候选文本框是否包含文本内容时需要同时根据两个条件进行判断：

一是候选文本框的旋转角度θ与真实标记的文本框旋转角度θ_gt差值的绝度值小于等于π/12；

二是利用仿射变换将候选文本框和真实标记的文本框转换成水平文本框后两者面积的交并比大于0.6则判断为包含文本内容、交并比小于0.3则判断为背景。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川中电启明星信息技术有限公司，未经四川中电启明星信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111044336.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种烟气净化系统及其冷量综合利用工艺
下一篇：动力角传感器磨损试验装置的优化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的OCR文字识别方法有效

专利文献下载