[发明专利]一种基于深度学习的自然场景文本检测方法在审

申请号：	201910270269.4	申请日：	2019-04-03
公开（公告）号：	CN110135248A	公开（公告）日：	2019-08-16
发明（设计）人：	刘发贵;陈成	申请（专利权）人：	华南理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍;江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征，然后使用RNN编码这些特征以充分利用文本的上下文特性；接着，将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后，最后通过一个文本连接器将生成的文本提议连接起来，从而灵活高效地实现多尺度、多方向的文本检测。本发明提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。
搜索关键词：	文本检测文本自然场景多方向连接器非极大值抑制多尺度特征提议方法使用网络提取变尺度多尺度特征图准确率池化输出学习灵活
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的自然场景文本检测方法，其特征在于包括以下步骤：(1)构建并训练基于神经网络的自然场景文本检测模型，包括：(1.1)构建基于特征金字塔网络(Feature Pyramid Networks，FPN)的特征提取器；(1.2)使用循环神经网络(Recurrent Neural Network，RNN)对特征提取器提取到的特征进行编码；(1.3)使用ROI池化层进一步提高检测的精度；(1.4)最后使用全连接层进行检测框的分类和回归，形成文本检测模型；(1.5)将经过标注的训练图形输入模型；(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型；(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测，包含以下子步骤：(2.1)输入待检测图像，使用训练后的自然场景文本检测模型对给定图像进行文本检测，输出一系列文本提议检测框的得分和坐标；(2.2)对得到的文本提议进行非极大值抑制，以去除部分冗余检测框；(2.3)使用文本连接器对一系列的文本提议进行连接，生成最终的检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910270269.4/，转载请声明来源钻瓜专利网。

上一篇：一种路面分割中的数据增强方法、装置、设备及介质
下一篇：基于时间注意力机制和LSTM的人体行为识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的自然场景文本检测方法在审

专利文献下载