[发明专利]一种基于深度学习的自然场景下文字检测定位方法有效

申请号：	201710463101.6	申请日：	2017-06-19
公开（公告）号：	CN107346420B	公开（公告）日：	2020-02-11
发明（设计）人：	操晓春;伍蹈;王蕊;代朋纹;张月莹	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/62
代理公司：	11200 北京君尚知识产权代理有限公司	代理人：	俞达成
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习自然场景文字检测定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R‑CNN的RPN(多层卷积神经网络)，根据文字的特征信息，改变RPN中的anchor大小以及回归方式，并加入RNN网络层对图片上下文信息进行分析，构造一个能够有效地检测出文字的文字检测网络。另外，本发明采用聚类方法，设定anchor的大小。特别地，本发明使用困难样本挖掘进行级联训练，能够减少对于文字的误检率。在测试方面，本发明采用级联测试的方法，最终，准确高效的实现文字的定位。

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的自然场景下文字检测定位方法，能够准确定位自然场景下的文字。

背景技术

文字作为人类信息传播的载体，其中蕴含着丰富语义信息。自然场景下，文字也无处不在，例如交通指示牌，商店的广告牌，海报等等，有人工痕迹的地方，基本都有文字存在。从自然场景识别出文字对很多领域都有辅助性的帮助。例如，在图片搜索方面，识别图片中的文字有利于我们更好地对图片分类匹配；在无人驾驶方面，从自然场景中识别出交通指示牌以及其他标志里的文字信息可以辅助驾驶。自然场景下的文字识别在人工智能高速发展的今天，是一个不可或缺的重要发展部分。图像中的文字识别(Text Spotting)一般分为两个步骤，首先文字检测定位出图像中文字的位置，然后对定位出来的文字采用识别技术得到文字的信息内容。其中，文字检测从图片背景中定位出准确文字区域，在整个文字识别流程中占有重要地位。

自然场景下的文字检测与传统的文字检测技术[1.Mori,Shunji,C.Y.Suen,andK.Yamamoto.Historical review of OCR research and development.Proceedings ofthe IEEE 80.7(1992):1029-1058][2.Smith,R.An Overview of the Tesseract OCREngine.International Conference on Document Analysis and Recognition IEEEComputer Society,2007:629-633]不同，传统文字检测主要处理的是文档图像，如扫描文件，PDF等等。这类文档图像文字自身与背景有很大的不同，背景相对单一简单，文字格式(字体、颜色等)相对统一。因此，这类任务可以比较容易的将文字从简单背景中提取出来，然后在分割出的文字上使用传统的文字识别技术便能得到文字内容。这部分技术现已相对成熟。但是，自然场景中的图像是与文档图像有很大区别的。首先，背景复杂很多，它不是文档图像的纯色背景，自然场景中的图像充满着各种对于文字的干扰，比如，电线，窗户等人工痕迹的存在使文字很难从背景中提取出。其次，自然场景中的文字的字体，颜色，布局等有很大的多变性，这增大了我们定位的困难。另外，自然场景中的光照等噪点的存在，又一次提高了检测的难度。因此，自然场景中的文字检测是一个极具挑战的任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710463101.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的自然场景下文字检测定位方法有效

专利文献下载