[发明专利]一种基于深度学习的自然场景文本检测方法在审

申请号：	201910270269.4	申请日：	2019-04-03
公开（公告）号：	CN110135248A	公开（公告）日：	2019-08-16
发明（设计）人：	刘发贵;陈成	申请（专利权）人：	华南理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍;江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本检测文本自然场景多方向连接器非极大值抑制多尺度特征提议方法使用网络提取变尺度多尺度特征图准确率池化输出学习灵活
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的自然场景文本检测方法，其特征在于包括以下步骤：

(1)构建并训练基于神经网络的自然场景文本检测模型，包括：

(1.1)构建基于特征金字塔网络(Feature Pyramid Networks，FPN)的特征提取器；

(1.2)使用循环神经网络(Recurrent Neural Network，RNN)对特征提取器提取到的特征进行编码；

(1.3)使用ROI池化层进一步提高检测的精度；

(1.4)最后使用全连接层进行检测框的分类和回归，形成文本检测模型；

(1.5)将经过标注的训练图形输入模型；

(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型；

(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测，包含以下子步骤：

(2.1)输入待检测图像，使用训练后的自然场景文本检测模型对给定图像进行文本检测，输出一系列文本提议检测框的得分和坐标；

(2.2)对得到的文本提议进行非极大值抑制，以去除部分冗余检测框；

(2.3)使用文本连接器对一系列的文本提议进行连接，生成最终的检测结果。

2.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，特征金字塔网络(Feature Pyramid Networks，FPN)只使用了从P2到P5的层级。

3.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，特征金字塔网络(Feature Pyramid Networks，FPN)使用了ResNet-101作为骨架网络。

4.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，使用512个隐藏层的双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory，Bi-LSTM)作为循环神经网络(RecurrentNeural Network，RNN)对提取到的特征进行编码。

5.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，使用如下损失函数进行损失的计算：

其中L、L_cls和L_reg分别为总损失、分类损失和回归损失，λ是平衡分类损失和回归损失之间的权重系数，是第i个检测框的真实的类别。

6.根据权利要求5所述的基于深度学习的自然场景文本检测方法，其特征在于，分类损失定义如下：

其中，p_i是第i个检测框的预测类别，是第i个检测框的真实类别。

7.根据权利要求5所述的基于深度学习的自然场景文本检测方法，其特征在于，回归损失定义如下：

其中，t_i是第i个检测框的预测坐标，是第i个检测框的真实坐标。

8.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在对给定图像中的自然场景文本进行检测中，使用如下步骤进行文本提议的连接：

若提议P_j和提议P_i满足下列两项条件，将提议P_j定义为提议P_i的邻居：

(1)提议P_j和提议P_i离得最近且它们之间的距离小于w_j+w_i；

(2)提议P_j和提议P_i在垂直方向上具有大于0.5的重合度

其中w_i和w_j分别为提议P_i和提议P_j的宽度，如果提议P_i是提议P_j的邻居并且提议P_j是提议P_i的邻居，这将这两个提议连接为同一个检测框。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。