[发明专利]文字检测方法和装置有效

申请号：	201510970839.2	申请日：	2015-12-22
公开（公告）号：	CN105574513B	公开（公告）日：	2017-11-24
发明（设计）人：	姚聪;周舒畅;周昕宇;印奇	申请（专利权）人：	北京旷视科技有限公司;北京迈格威科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/34;G06K9/72
代理公司：	北京睿邦知识产权代理事务所(普通合伙)11481	代理人：	徐丁峰,张玮
地址：	100190 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理领域，具体涉及一种文字检测方法和装置。

背景技术

随着智能手机的广泛普及和移动互联网的迅速发展，通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常，在文字和其他物体并存的场景，用户往往首先更关注场景中的文字信息，因而正确识别图像中的文字对用户拍摄意图会有更深入的理解。这就涉及了文字检测技术来识别拍摄图像中的文字区域。

文字检测作为一项重要的基础技术，具有巨大的应用价值和广阔的应用前景，特别是自然场景图像的文字检测。例如，自然场景图像的文字检测技术可直接应用于增强现实、地理定位、人机交互、机器人导航、自动驾驶汽车和工业自动化等领域。

然而，待检测图像中大多包含较复杂的背景，且其质量可能受到噪声、模糊、非均匀光照等因素的影响；此外，文字具有多样性，比如，自然场景图像中的文字可能具有不同的颜色、尺寸、字体和方向等。这些因素都会给文字检测带来巨大的困难和挑战。基于上述原因，现有的文字检测方法容易产生虚警(false alarm)，也即将背景中的非文字成分错误地判别为文字。此外，现有的文字检测方法在适应性方面也存在不足之处，例如，大部分方法只能检测水平方向的文字，对于倾斜或旋转的文字则无能为力。又例如，有些方法只能够应用于中文检测，无法直接推广到不同类别语言(如英文、俄文、韩文等)的文字。而且当图像中存在严重的噪声、模糊或者非均匀光照时，现有的文字检测方法又往往会产生错误。总之，现有的文字检测方法和系统在精度和适用范围等方面存在缺陷。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的文字检测方法和装置。

根据本发明一个方面，提供了一种文字检测方法，包括：

接收多个样本图像和所述样本图像的标注信息；根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图；利用所述样本图像和所述掩膜图训练神经网络，以获得语义预测模型；接收待检测图像；经由所述语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及对所述文字区域概率图进行分割操作，以确定所述文字区域。

根据本发明另一方面，还提供了一种文字检测装置，包括训练模块、语义分析模块和分割模块。训练模块用于接收多个样本图像和所述样本图像的标注信息，根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图，以及利用所述样本图像和所述掩膜图训练神经网络，以获得语义预测模型。语义分析模块用于接收待检测图像，并使用所述语义预测模型以生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域。分割模块用于对所述文字区域概率图进行分割操作，以确定所述文字区域。

上述文字检测方法和装置中，支持对待检测图像的全图直接进行文字检测，不同于基于简单阈值分割、滑动窗或连通分量的算法。其可以在有效抑制复杂背景的干扰的同时，检测不同语种、方向、颜色、字体和尺寸的文字，适应范围广。此外，该文字检测方法和装置具有鲁棒性强的特点，可以有效应对图像噪声、图像模糊、图像中复杂背景、非均匀光照等因素的干扰。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1a和图1b分别示例性地示出了根据本发明一个实施例的待检测图像和经检测图像；

图2示例性地示出了根据本发明一个实施例的文字检测方法的流程图；

图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b分别示例性地示出了根据本发明的实施例的待检测图像的全图和其对应生成的文字区域概率图。

图7示例性地示出了根据本发明一个实施例的获得待检测图像的方法的流程图；

图8示例性地示出了根据本发明一个实施例的对文字区域概率图进行分割操作的方法的流程图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司，未经北京旷视科技有限公司;北京迈格威科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510970839.2/2.html，转载请声明来源钻瓜专利网。