[发明专利]基于残差卷积和递归神经网络的中文场景文本行识别方法有效

申请号：	201910221267.6	申请日：	2019-03-22
公开（公告）号：	CN109948714B	公开（公告）日：	2022-11-29
发明（设计）人：	李兆海;金连文;罗灿杰;杨帆;毛慧芸;周伟英	申请（专利权）人：	华南理工大学;华南理工大学珠海现代产业创新研究院
主分类号：	G06V10/774	分类号：	G06V10/774;G06V10/82;G06N3/04
代理公司：	北京东方盛凡知识产权代理有限公司 11562	代理人：	王宁宁
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法，包括以下步骤：收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果；本发明通过将卷积神经网络和递归神经网络结合起来，解决中文场景文本行识别的问题，避免了对文本行进行字符分割以及误分割带来的错误识别，通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练，从而得到实用的中文场景文本识别模型，且具有鲁棒性强，能够识别复杂背景、复杂光照和多种字体的中文文本行。
搜索关键词：	基于卷积递归神经网络中文场景文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于，包括以下步骤：步骤一：收集中文场景文本训练图像；步骤二：对训练图像尺寸做归一化处理，先将中文场景文本行图像的高度归一化为H_s个像素，宽度等比例缩放，再根据网络结构来设置标准宽度W_s，得到归一化处理后的训练图像尺寸为H_s×W_s；步骤三：对训练图像做数据增广处理，包括进行高斯模糊、丢弃图像块、改变亮度和对比度、图像旋转、仿射变换、透视变和动态模糊处理；步骤四：设计一个具有依次连接的6个卷积层结构的残差卷积神经网络对训练图像进行编码，设计残差递归神经网络和CTC模型对编码后的训练图像特征进行解码，分别设计两个模型，用于水平文本行和竖直文本行的识别；步骤五：通过大量训练数据对水平文本行和竖直文本行训练得到识别模型；步骤六：分别将待识别图像输入水平文本行和竖直文本行识别模型中，取置信度较高的结果为识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学;华南理工大学珠海现代产业创新研究院，未经华南理工大学;华南理工大学珠海现代产业创新研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910221267.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于残差卷积和递归神经网络的中文场景文本行识别方法有效

专利文献下载