[发明专利]一种基于深度学习的自然场景文本检测方法在审
| 申请号: | 201910270269.4 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN110135248A | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 刘发贵;陈成 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本检测 文本 自然场景 多方向 连接器 非极大值抑制 多尺度特征 提议 方法使用 网络提取 变尺度 多尺度 特征图 准确率 池化 输出 学习 灵活 | ||
本发明公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征,然后使用RNN编码这些特征以充分利用文本的上下文特性;接着,将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后,最后通过一个文本连接器将生成的文本提议连接起来,从而灵活高效地实现多尺度、多方向的文本检测。本发明提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。
技术领域
本发明属于图像处理技术领域,具体涉及一种基于深度学习的自然场景文本检测方法。
背景技术
场景文本检测是文本识别的重要前提,常被应用在图像检索、机器翻译、自动驾驶等领域。但是,文本检测在复杂背景、多尺度、多语言、光照不均匀、模糊等情况下的检测仍然存在着诸多困难。
自然场景文本的多样性与多变性:相比与文档中的文本,自然场景的文本可能是多尺度、多语言的,形状、方向、比例、颜色可能各不相同,这些变化都给文本的检测带来了诸多挑战。
复杂背景:场景文本可能在任意的背景中出现,包括信号标示、砖块或是草丛、栅栏,这些背景可能具有和文本非常相似的特征,可能成为噪声影响文本的判断。同时,还有异物的遮挡造成的文本的缺失,导致潜在的检测错误。
参差不齐的成像质量:由于不可控的收集手段,无法保证成像的质量。用于检测的图像可能由于不同的拍摄角度或是拍摄距离造成畸变、虚焦,或是由于拍摄时光照的不同形成噪点、阴影。
针对自然场景文本检测问题,可将检测方法分为两类,一类是传统的检测方法,另一类是基于深度学习的检测方法。传统的方法有基于纹理的方法,如使用局部强度、滤波器响应、小波系数等;有基于区域的方法,如笔画宽度变换(Stroke Width Transform,SWT)、最大极值稳定区域(Maximally Stable Extremal Regions,MSER)、笔画特征变换(StrokeFeature Transform,SFT)等。近年来,随着深度神经网络的发展,深度学习在计算机视觉领域表现出越来越大的优势。目前,最流行的还是基于卷积神经网络(Convolutional NeuralNetworks,CNN)的深度学习方法。在使用了深度学习之后,大大提高了文本检测的准确性,并且将人们从复杂的特征设计工作中解放出来。常用的基于深度学习的自然场景文本检测模型通常基于常见的目标检测模型,如RCNN、YOLO、SSD等。这些模型的基本结构通常是用数个卷积层和池化层提取特征,最后使用全连接层进行检测框的分类和回归。
发明内容
为了更加准确高效地在自然场景中进行文本检测,解决自然场景中文本多方向、变尺度的检测问题,本发明提出了一种基于深度学习的自然场景文本检测方法。
本发明的目的至少通过如下技术方案之一实现。
一种基于深度学习的自然场景文本检测方法,包括如下步骤:
(1)构建并训练基于神经网络的自然场景文本检测模型,包含以下子步骤:
(1.1)构建基于特征金字塔网络(Feature Pyramid Networks,FPN)的特征提取器;
(1.2)使用循环神经网络(Recurrent Neural Network,RNN)对特征提取器提取到的特征进行编码;
(1.3)使用ROI池化层进一步提高检测的精度;
(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;
(1.5)将经过标注的训练图形输入模型;使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;
(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910270269.4/2.html,转载请声明来源钻瓜专利网。





