[发明专利]文本检测设备、文本信息提取系统及其方法在审
申请号: | 201210128548.5 | 申请日: | 2012-04-27 |
公开(公告)号: | CN103377379A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 麻文华;姜涌 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 罗银燕 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 设备 信息 提取 系统 及其 方法 | ||
技术领域
本发明涉及文本检测设备、文本信息提取系统及其方法。
背景技术
检测自然图像中的文本对于许多计算机视觉应用(诸如用于视觉受损者和外国人的计算机辅助、图像和视频的自动检索以及城市环境中的机器人导航)是至关重要的。
然而,检测自然图像中的文本也是一个艰巨的课题。相比于打印页、传真和商业卡的扫描,主要的挑战在于文本的多样性:字体、尺寸、倾斜角度、畸变等。另外,诸如不均匀照明和反射以及复杂背景的环境因素使它更加复杂。
可以将自然图像中的文本划分为字幕(caption)文本(其被人工地覆盖在图像上)和场景(scene)文本(其自然地存在于图像中)。众所周知,场景文本更难于检测,因为它可具有任何取向,它可通过透视投影而畸变,并且它常常受到诸如照明、焦点、运动等的照相机参数和场景变化的影响。
用于自然图像中的文本的现有文本检测方法主要有两类:基于学习的方法和基于分组的方法。
基于学习的方法以自上而下的方式工作,其是模型驱动的。图1示意性地示出现有技术的基于学习的文本检测方法的流程图。如图1所示,在预处理(步骤110)之后,通过使用滑动窗口和经训练的文本分类器来扫描输入图像以得到文本区域(步骤120)。更具体地,该方法利用如下事实:图像中的文本具有将其与背景相区分的截然不同的纹理(textural)性质。基于文本和非文本的训练样本来训练分类器,然后将分类器应用到输入图像,并基于经训练的分类器的输出来将每个窗口判断为文本或非文本。最后,对文本区域进行整合(integrate)(步骤130)。
另一方面,基于分组的方法以自下而上的方式工作,其是数据驱动的。图2示意性地示出现有技术的基于分组的文本检测方法的流程图。如图2所示,在预处理(步骤210)之后,基于几何特征和/或纹理特征来生成和过滤子结构(步骤220)。然后,通过基于布局信息将子结构分组在一起来生成子结构组,并对子结构组进行过滤(步骤230)。最后,基于子结构组生成文本区域,并对文本区域进行整合(步骤240)。
然而,基于学习的方法在分类阶段具有高计算复杂度,这占据了大部分处理时间。特别地,它们要求对输入图像进行详尽的和多尺度(multi-scale)的扫描,以检测并定位文本区域,这使得卷积操作计算代价高昂。另外,由于用于文本定位的纹理信息的利用对于字符的字体、尺寸和样式敏感,因此难以对于每种可能的情形手工生成纹理过滤器集。因此,基于学习的方法被限于检测特定的文本,或者需要大量的训练样本来确保一般化性能。
相反,基于分组的方法实现起来相对简单,并在字符的字体、尺寸和样式方面具有较少的限制。然而,基于分组的方法的性能严重地受子结构生成和分组中使用的参数的影响。而且,用于识别文本的可用信息在子结构级受限,这使得难以将文本与非文本区分开。因此,基于分组的方法遭受到许多的由于复杂的非文本区域而会导致的假肯定误检(false positives)、以及由于子结构可能不保留字符的完整形状这一事实而会导致的假否定漏检(false negatives)。为了改善基于分组的方法的性能,要求更复杂的文本信息。
因此,需要有能够至少改善现有技术的基于分组的文本检测方法的精确率的文本检测设备、文本信息提取系统及其方法。
发明内容
鉴于以上问题中的至少一个提出本发明。
本发明的目的之一是提供能够至少改善现有技术的基于分组的文本检测方法的精确率的文本检测设备、文本信息提取系统及其方法。
根据本发明的第一方面,提供一种文本检测方法,包括:子结构生成和过滤步骤,用于从输入图像生成多个子结构,并基于形状特征从所述多个子结构过滤掉非文本子结构以获得候选子结构;种子子结构选择步骤,用于从所述候选子结构选择种子子结构,所述种子子结构具有所述输入图像中的字符的完整形状;子结构组生成和过滤步骤,用于通过基于所述候选子结构的空间关系将它们分组在一起来生成子结构组,并基于所述种子子结构的性质对所述子结构组进行过滤;以及文本区域生成和整合步骤,用于基于所述子结构组生成文本区域,并基于所述文本区域的空间关系对所述文本区域进行整合。
根据本发明的第二方面,提供一种文本信息提取方法,包括:文本检测步骤,用于通过使用如上所述的文本检测方法来检测输入图像中的文本区域;文本提取步骤,用于从检测到的文本区域提取文本;以及文本识别步骤,用于对提取的文本进行识别以获得文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210128548.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种理发头盔
- 下一篇:一种能控制土壤温度的花盆
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置