[发明专利]一种版式文件中表格识别方法及系统有效
申请号: | 200810224799.7 | 申请日: | 2008-12-26 |
公开(公告)号: | CN101770446A | 公开(公告)日: | 2010-07-07 |
发明(设计)人: | 徐剑波;董宁 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京天悦专利代理事务所 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 版式 文件 表格 识别 方法 系统 | ||
1.一种版式文件中表格识别方法,包括以下步骤:
(1)从版式文件中的版面中提取原始文字块,对原始文字块进行第一次 合并,得到初始合并后的文字块;对原始文字块进行第一次合并的方法是: 按原始文字块的信息,对原始文字块进行聚类,得到多个集合{Si},然后对 每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到 初始合并后的文字块;
(2)对初始合并后的文字块进行进一步的合并,得到再次合并后的文字 块;利用连接点机制对初始合并后的文字块进行再次合并,包括以下步骤:
比较所有的初始合并后的文字块,将任意两个文字块做如下比较,若以 下条件同时成立则两个文字块进行聚合:
A.两文字块的垂直重叠度>40%且垂直较小重叠度>80%;重叠度是指两 内容块在测量方向上的重叠长度与两个内容块在此方向上的投影长度的比 率;垂直重叠度是指两内容块在垂直方向上的重叠度;较小重叠度是指两内 容块在测量方向上的重叠长度与两个内容块在测量方向上长度值中的较小之 值的比率;垂直较小重叠度是指两内容块在垂直方向上的较小重叠度;
B.两个文字块的垂直距离<0.6*(两个文字块的内容块算术平均字体);
C.连接点个数>3,
或连接点个数>2且两文字块字体差值<2.3,
或连接点个数=1且两文字块行数均为1且水平重叠度>0且排版方 向一致;连接点是指对于两个合并后的文字块中的两个原始文字块,若它们 的排版顺序号相邻,则称这两个原始文字块构成一个连接点;水平重叠度是 指两内容块在水平方向上的重叠度;
(3)对再次合并后的文字块进行筛选,选择出其中是表格的表格文字块; 对再次合并后的文字块进行筛选时采用投影计算方法,使用投影计算方法计 算再次合并后的文字块的栏数,同时统计文字块的总行数,若文字块的栏数 >2且行数>=4,则认为此文字块为表格文字块;投影计算方法的具体流程为:
将所有再次合并后的文字块在水平方向进行投影,统计出一个横标为水 平位置,纵标为文字行数的统计直方图,根据投影结果找到在水平方向上没 有文字或文字行数小于预定阈值的区域,则此区域即表示在此位置上存在一 个纵栏;
(4)将表格文字块中的文字内容进行重新组合,得到表格中的内容;重 新组合同一个表格的所有文字块的文字内容的方法包括以下步骤:
A.进行同行聚类,利用文字块的垂直基线的数据,将在表格中同行的文 字块聚合在一起;聚合的条件是:若两个文字块的垂直基线的差值<当前 文字块的平均字体*95%,则认为两块属于同一行;
B.合并同行文字块的文字内容;
在合并过程中根据两个文字块之间的间距适当的加入空格,加入空格个 数的原则如下:
nSpaceCount=两文字块的距离/空格宽度
所述的空格宽度是:中文1.5磅,英文0.85磅;
C.合并所有行的内容,并在行尾添加硬回车。
2.如权利要求1所述的一种版式文件中表格识别方法,其特征是,步 骤(1)中,从版面中提取原始文字块的方法是:导入版式文件,对版式文件 进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号 信息,得到一个原始文字块的列表。
3.如权利要求1所述的一种版式文件中表格识别方法,其特征是,所述 连接点的计算方法如下:
计算两个文字块之间的连接点个数,对两个文字块的中的子块集合{A}、 {B}中的所有原始文字块进行两两比较,若两个原始文字块的排版顺序之差的 绝对值为1,则认定这两个文字块在此处存在一个连接点,两文字块的连接 点计数加1。
4.如权利要求1所述的一种版式文件中表格识别方法,其特征是:步 骤(3)中,所述的预定阈值是再次合并后的文字块的平均字体的0.6-1.2 倍。
5.一种版式文件中表格识别系统,其特征是,该系统包括以下模块:
(1)用于从版式文件中的版面中提取原始文字块的提取模块;
(2)用于对原始文字块进行第一次合并的文字块初始合并模块;文字块 初始合并模块用于按原始文字块的信息,对原始文字块进行聚类,得到多个 集合{Si},然后对每个集合中的原始文字块进行排序,并合并该集合的所有 原始文字块,得到初始合并后的文字块;
(3)用于对初始合并后的文字块进行进一步合并的文字块再次合并模块; 文字块再次合并模块利用连接点机制对初始合并后的文字块进行再次合 并,文字块再次合并模块包括用于比较所有的初始合并后的文字块,将任 意两个文字块做比较,并将同时满足所有设定条件的两个文字块进行聚合 的文字块聚合模块;所述设定条件为:
A.两文字块的垂直重叠度>40%且垂直较小重叠度>80%;重叠度是 指两内容块在测量方向上的重叠长度与两个内容块在此方向上的投影长 度的比率;垂直重叠度是指两内容块在垂直方向上的重叠度;较小重叠 度是指两内容块在测量方向上的重叠长度与两个内容块在测量方向上长 度值中的较小之值的比率;垂直较小重叠度是指两内容块在垂直方向上 的较小重叠度;
B.两个文字块的垂直距离<0.6*(两个文字块的内容块算术平均字 体);
C.连接点个数>3,
或连接点个数>2且两文字块字体差值<2.3,
或连接点个数=1且两文字块行数均为1且水平重叠度>0且排版方 向一致;连接点是指对于两个合并后的文字块中的两个原始文字块,若它们 的排版顺序号相邻,则称这两个原始文字块构成一个连接点;水平重叠度是 指两内容块在水平方向上的重叠度;
(4)用于对再次合并后的文字块进行筛选并选择出其中是表格的表格文 字块的选择模块;
对再次合并后的文字块进行筛选时采用投影计算方法,使用投影计算方 法计算再次合并后的文字块的栏数,同时统计文字块的总行数,若文字块的 栏数>2且行数>=4,则认为此文字块为表格文字块;投影计算方法的具体流程 为:
将所有再次合并后的文字块在水平方向进行投影,统计出一个横标为水 平位置,纵标为文字行数的统计直方图,根据投影结果找到在水平方向上没 有文字或文字行数小于预定阈值的区域,则此区域即表示在此位置上存在一 个纵栏;
(5)用于将表格文字块中的文字内容进行重新组合的组合模块;组合模 块用于重新组合同一个表格的所有文字块的文字内容,包括:
用于进行同行聚类,利用文字块的垂直基线的数据,将在表格中同行的 文字块聚合在一起的同行聚合模块;聚合的条件是:若两个文字块的垂直基 线的差值<当前文字块的平均字体*95%则认为两块属于同一行;
用于合并同行文字块的文字内容的同行合并模块;在合并过程中根据两 个文字块之间的间距适当的加入空格,加入空格个数的原则如下:
nSpaceCount=两文字块的距离/空格宽度
所述的空格宽度是:中文1.5磅,英文0.85磅;
以及用于合并所有行的内容,并在行尾添加硬回车的总合并模块;
所述的提取模块提取版式文件中版面的原始文字块后,由与其相连的文 字块初始合并模块进行第一次合并,接下来由依次相连的文字块再次合并模 块进行再次合并,然后由选择模块对再次合并后的文字块进行筛选并选择出 其中是表格的表格文字块,最后由组合模块将表格文字块中的文字内容进行 重新组合,得到表格中的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224799.7/1.html,转载请声明来源钻瓜专利网。