[发明专利]文本检测方法和装置以及文本信息提取方法和系统有效
申请号: | 201310196300.7 | 申请日: | 2013-05-24 |
公开(公告)号: | CN104182722B | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 麻文华;罗兆海 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 陈新 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 方法 装置 以及 信息 提取 系统 | ||
本公开涉及文本检测方法和装置以及文本信息提取方法和系统。提供了用于检测包括至少一个连通体(CC)的图像中的文本区域的方法。该方法包括:文本背景区域(TBR)检测步骤,用于从图像中检测至少一个TBR;CC过滤步骤,用于基于检测到的TBR对所述至少一个CC进行过滤以保留至少一个候选文本CC;和CC组合步骤,将所述至少一个候选文本CC进行组合以得到文本区域。根据本发明的方法可以快速地和/或精确地指出图像中的文本位置,从而改进文本检测的性能。
技术领域
本公开涉及文本检测,更具体地说,本公开涉及文本检测方法和装置以及文本信息提取方法和系统。
背景技术
检测图像中的文本,尤其是自然图像中的文本,对于一些计算机视觉应用,比如对于视觉受损人员和外国人的计算机辅助、图像和视频的自动检索,以及都市环境中的机器导航来说至关重要。
但是,自然场景中的文本检测是个困难的主题。与打印的页面、传真、名片的扫描不同,主要的挑战在于文本的多样性:字体、字号、斜角、由于倾斜造成的失真等。比如不均匀的照明和反光、较差光照条件以及复杂的背景之类的环境因素增加了更多复杂情况。
在相关文献中,用于检测自然场景中的文本区域的文本检测方法通常遵循图1所示出的流程。图1中的方法100开始于框110,从图像生成分量。这里,分量例如可以是连通体(CC),连通体是具有相似颜色或灰度或笔划宽度的像素集合。
然后,在框120,从每个分量提取各种特征,并且基于这些特征滤除非文本分量,留下候选文本分量。
然后,在框130,留下的候选文本分量被组合在一起以形成文本行或单词,并且按照文本行或单词的最小外接框(包含文本的最小多边形)输出文本区域。
现有技术的一个普遍问题是它们试图仅通过文本区域的特征,比如边缘、角、笔划、颜色和纹理,来检测文本。但是忽略了文本周围的上下文信息,而上下文信息在大多数情况下可能是有帮助的。结果,现有技术由于复杂的非文本区域而出现误检,并且由于自然场景中文本的较大差异性而出现漏检。
因此,需要一种改进的利用文本区域周围的上下文信息在图像中进行文本检测的方式。
一篇已发表论文“Scenery character detection with environmentalcontext”,作者Yasuhiro Kunishige,Feng Yaokai,Seiichi Uchida,发表于International Conference on Document Analysis and Recognition(ICDAR),pp1049–1053,2011,提出了一种使用上下文信息的理念的文本检测方法。具体而言,该篇论文从目标分量的扩展区域提取上下文特征,其中扩展区域是通过在目标分量周围增加10个像素的裕量而形成的。此外,该方法将分量分类到六种场景分量类别之一中:“天空”、“绿地”、“招牌”、“地面”、“建筑物”和“其它”。此方法的一个问题是,比如“天空”、“绿地”的普通类别与文本检测无关,而“招牌”不覆盖文本背景区域的所有种类,比如标志、标签、名册、海报等。此方法的另一问题是,上下文信息是从具有固定大小的裕量区域中提取的,这无法适应场景变化。
发明内容
需要解决以上问题中的至少一个。
发明人发现,为了易于被看到,自然场景中的大多数文本被印在与文本形成高对比度的相对均匀的背景区域上。这可以有助于文本检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310196300.7/2.html,转载请声明来源钻瓜专利网。