[发明专利]一种基于深度学习的自然场景文本检测方法在审
| 申请号: | 201910270269.4 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN110135248A | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 刘发贵;陈成 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本检测 文本 自然场景 多方向 连接器 非极大值抑制 多尺度特征 提议 方法使用 网络提取 变尺度 多尺度 特征图 准确率 池化 输出 学习 灵活 | ||
1.一种基于深度学习的自然场景文本检测方法,其特征在于包括以下步骤:
(1)构建并训练基于神经网络的自然场景文本检测模型,包括:
(1.1)构建基于特征金字塔网络(Feature Pyramid Networks,FPN)的特征提取器;
(1.2)使用循环神经网络(Recurrent Neural Network,RNN)对特征提取器提取到的特征进行编码;
(1.3)使用ROI池化层进一步提高检测的精度;
(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;
(1.5)将经过标注的训练图形输入模型;
(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;
(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:
(2.1)输入待检测图像,使用训练后的自然场景文本检测模型对给定图像进行文本检测,输出一系列文本提议检测框的得分和坐标;
(2.2)对得到的文本提议进行非极大值抑制,以去除部分冗余检测框;
(2.3)使用文本连接器对一系列的文本提议进行连接,生成最终的检测结果。
2.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,特征金字塔网络(Feature Pyramid Networks,FPN)只使用了从P2到P5的层级。
3.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,特征金字塔网络(Feature Pyramid Networks,FPN)使用了ResNet-101作为骨架网络。
4.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,使用512个隐藏层的双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)作为循环神经网络(RecurrentNeural Network,RNN)对提取到的特征进行编码。
5.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,使用如下损失函数进行损失的计算:
其中L、Lcls和Lreg分别为总损失、分类损失和回归损失,λ是平衡分类损失和回归损失之间的权重系数,是第i个检测框的真实的类别。
6.根据权利要求5所述的基于深度学习的自然场景文本检测方法,其特征在于,分类损失定义如下:
其中,pi是第i个检测框的预测类别,是第i个检测框的真实类别。
7.根据权利要求5所述的基于深度学习的自然场景文本检测方法,其特征在于,回归损失定义如下:
其中,ti是第i个检测框的预测坐标,是第i个检测框的真实坐标。
8.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在对给定图像中的自然场景文本进行检测中,使用如下步骤进行文本提议的连接:
若提议Pj和提议Pi满足下列两项条件,将提议Pj定义为提议Pi的邻居:
(1)提议Pj和提议Pi离得最近且它们之间的距离小于wj+wi;
(2)提议Pj和提议Pi在垂直方向上具有大于0.5的重合度
其中wi和wj分别为提议Pi和提议Pj的宽度,如果提议Pi是提议Pj的邻居并且提议Pj是提议Pi的邻居,这将这两个提议连接为同一个检测框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910270269.4/1.html,转载请声明来源钻瓜专利网。





