[发明专利]一种基于深度学习的自然场景文本检测方法在审
| 申请号: | 201910270269.4 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN110135248A | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 刘发贵;陈成 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征,然后使用RNN编码这些特征以充分利用文本的上下文特性;接着,将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后,最后通过一个文本连接器将生成的文本提议连接起来,从而灵活高效地实现多尺度、多方向的文本检测。本发明提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。 | ||
| 搜索关键词: | 文本检测 文本 自然场景 多方向 连接器 非极大值抑制 多尺度特征 提议 方法使用 网络提取 变尺度 多尺度 特征图 准确率 池化 输出 学习 灵活 | ||
【主权项】:
1.一种基于深度学习的自然场景文本检测方法,其特征在于包括以下步骤:(1)构建并训练基于神经网络的自然场景文本检测模型,包括:(1.1)构建基于特征金字塔网络(Feature Pyramid Networks,FPN)的特征提取器;(1.2)使用循环神经网络(Recurrent Neural Network,RNN)对特征提取器提取到的特征进行编码;(1.3)使用ROI池化层进一步提高检测的精度;(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;(1.5)将经过标注的训练图形输入模型;(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:(2.1)输入待检测图像,使用训练后的自然场景文本检测模型对给定图像进行文本检测,输出一系列文本提议检测框的得分和坐标;(2.2)对得到的文本提议进行非极大值抑制,以去除部分冗余检测框;(2.3)使用文本连接器对一系列的文本提议进行连接,生成最终的检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910270269.4/,转载请声明来源钻瓜专利网。





