[发明专利]一种版式文件中表格识别方法及系统有效
申请号: | 200810224799.7 | 申请日: | 2008-12-26 |
公开(公告)号: | CN101770446A | 公开(公告)日: | 2010-07-07 |
发明(设计)人: | 徐剑波;董宁 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京天悦专利代理事务所 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 版式 文件 表格 识别 方法 系统 | ||
技术领域
本发明属于计算机信息处理领域的模式识别技术领域,具体涉及一种版式文件中表格识别方法及系统。
背景技术
在报业、出版社等行业中,使用排版软件排版完成后,需要从已经生产的版面中提取文章以及相关的元数据信息,以便进一步利用,就是文章信息的重构和标引。为了更真实还原版面的内容,除了需要文章本身的内容信息(如标题、引题、副题、作者、正文等多项信息)以外,在标引时还提取需要文字块的位置、字体字号等信息。
申请号为200710179938.4的中国专利申请“一种基于PDF的复杂版面的标引方法”公开了一种标引方法(公开日期2008年6月25日),该方法通过分析和获取PDF上文字信息以及位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操作;进一步根据字体字号等信息确定文章标题与正文,根据位置信息,并结合少量的人工干预进行正文拼接、正文与标题关联等成文操作,从而使得整个版面上的文章能较快重新构建,同时可以自动获取到该文章所在的版面区域、文章和标题的字体和字号等标引信息,解决了文章重新构建费时费力或者效果不理想的问题。但是,该方法主要是针对版面中的文字的识别,对于版面中的表格却不能有效地识别。
目前,对于数字报刊在进行标引处理(即提对报刊中的内容信息进行组织,如:标注版面信息---出版日期、版次、版名)时,由于版面中往往存在大量的表格,一般情况下由于对于这些表格数据不能很好的进行自动处理,而人工处理又会十分繁琐,所以经常将这类数据丢弃或作为图片进行存储。以此导致了大量的表格数据丢失。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种自动识别版式文件中表格进而正确提取其中内容的方法及系统,该方法及系统能够通过分析报纸版面上内容的位置和排版信息,快速高效的识别表格,同时正确的组织表格内容。
为达到以上目的,本发明采用的技术方案是:一种版式文件中表格识别方法,包括以下步骤:
(1)从版式文件中的版面中提取原始文字块,对原始文字块进行第一次合并,得到初始合并后的文字块;
(2)对初始合并后的文字块进行进一步的合并,得到再次合并后的文字块;
(3)对再次合并后的文字块进行筛选,选择出其中是表格的表格文字块;
(4)将表格文字块中的文字内容进行重新组合,得到表格中的内容。
进一步,步骤(1)中,从版面中提取原始文字块的方法是:导入版式文件,对版式文件进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表。
进一步,步骤(1)中对原始文字块进行第一次合并的方法是:按原始文字块的信息,对原始文字块进行聚类,得到多个集合{Si},然后对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到初始合并后的文字块。
进一步,步骤(2)中,利用连接点机制对初始合并后的文字块进行聚类,包括以下步骤:
比较所有的初始合并后的文字块,将任意两个文字块做如下比较,若以下条件同时成立则两个文字块进行聚合:
A.两文字块的垂直重叠度>40%且垂直较小重叠度>80%;
B.两个文字块的垂直距离<0.6*(两个文字块的内容块算术平均字体);
C.连接点个数>3,
或连接点个数>2且两文字块字体差值<2.3,
或连接点个数=1且两文字块行数均为1且水平重叠度>0且排版方向一致。
更进一步,所述连接点的计算方法如下:
计算两个文字块之间的连接点个数,对两个文字块的中的子块集合{A}、{B}中的所有原始文字块进行两两比较,若两个原始文字块的排版顺序之差的绝对值为1,则认定这两个文字块在此处存在一个连接点,两文字块的连接点计数加1。
进一步,步骤(3)中,对再次合并后的文字块进行筛选时采用投影计算方法,使用投影方法计算再次合并后的文字块的栏数,同时统计文字块的总行数,若文字块的栏数>2且行数>=4,则认为此文字块为表格文字块。
更进一步,投影计算方法的具体流程为:
将所有再次合并后的文字块在水平方向进行投影,统计出一个横标为水平位置,纵标为文字行数的统计直方图,根据投影结果找到在水平方向上没有文字或文字行数小于预定阈值的区域,则此区域即表示在此位置上存在一个纵栏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224799.7/2.html,转载请声明来源钻瓜专利网。