[发明专利]在光学字符识别(OCR)过程中的段落识别有效
| 申请号: | 201180013187.3 | 申请日: | 2011-03-08 |
| 公开(公告)号: | CN102782702A | 公开(公告)日: | 2012-11-14 |
| 发明(设计)人: | B.拉达科维奇;S.加利奇;A.乌泽拉奇 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06K9/03 | 分类号: | G06K9/03;G06K9/20;G06K19/06 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李舒;汪扬 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 光学 字符 识别 ocr 过程 中的 段落 | ||
背景技术
光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化,通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等,会引发许多不同的问题。例如,常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置,所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此,OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而,当图像在对比度、照度、扭曲等等方面具有较差的质量时,OCR引擎的性能可能会恶化,并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是从书本得到时或当图像是由基于图像的扫描仪生成时,情形可能是这样,因为在这些情形中,文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的,当质量相对较差的文本页被扫描时,OCR引擎的性能也可能恶化。因此,为了以相对较高的质量执行OCR,典型地需要许多个别的处理步骤。
发明内容
光学字符识别(OCR)过程的一个方面牵涉到段落检测。段落检测典型地将在文本图像中的文本行通过它们各自的边界框的坐标识别后被执行。在一个实现中,段落检测过程把页上的所有文本行分为以下的两个类别之一:“开始段落行”类别和“继续段落行”类别。开始段落行跟随在具有硬换行(line break)的行后面,而继续段落行跟随在具有的换行不是硬换行的行后面。然后,各个段落被标识。每个段落包括位于两个连续的开始段落行之间的所有行以及两个连续的开始段落行中的第一个开始段落行。
在一个特定的实现中,在进行文本行分类之前,段落检测过程按照行在页上的布局把每个输入页分类成两种类别之一。这些类别是诗页类别(代表包括诗歌的页)和正文页类别(代表包括散文的页)。
在另一个特定的实现中,已被识别的段落通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。
本概要被提供来以简化的形式介绍概念的选择,这些概念在下面的详细描述中进一步描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。
附图说明
图1显示用于在文本图像上执行光学字符识别(OCR)的系统的一个说明性例子。
图2和3每个图显示两个段落,用于说明换行或硬换行的含义。
图4显示被页眉和页脚中断的文本片段。
图5显示左对齐的段落的例子。
图6显示右对齐的段落的例子。
图7显示居中对齐的段落的例子。
图8显示两端对齐的段落的例子。
图9是显示段落检测过程的一个例子的流程图。
图10a和10b分别显示正文页和诗页的例子。
图11显示可以执行段落检测的图像处理设备的一个例子。
图12显示文本的说明性部分,其中行分类部件已经把每行分类为开始段落行或继续段落行,如由在每行开始处的字母“B”或“C”表示的。
具体实施方式
图1显示用于文本图像的光学字符识别(OCR)的系统5的一个说明性例子。系统5包括用来生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器来生成图像。扫描仪10处理图像来生成输入数据,并把输入数据传送到处理装置(例如,OCR引擎20),以便进行图像内的字符识别。在这个具体的例子中,OCR引擎20被合并到扫描仪10中。然而,在其它的例子中,OCR引擎20可以是单独的单元,诸如独立的单元,或者是被合并到诸如PC、服务器等等的另外的设备的单元。
OCR引擎20接收文本图像作为文本行的位图。图像可以是文本的扫描图像或数字文档,诸如PDF或微软Word文档,其中输入数据已是可得到的。如果这样的输入数据是不可得到的,则OCR引擎的段落检测部件被假设为从OCR引擎的其它部件接收图像作为输入,在该图像中,文本行(和可能的单词)的列表已经被针对该图像的每页进行标识。各个行和单词分别由行和单词边界框限定。边界框本身由针对每个边界框建立的一组坐标限定。因此,可得到关于单词如何被组织成行和行如何被组织成区域的信息,以确立行读取次序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180013187.3/2.html,转载请声明来源钻瓜专利网。





