[发明专利]抽取电子表格文档中结构化信息的方法及装置有效

专利信息
申请号: 201611245472.9 申请日: 2016-12-29
公开(公告)号: CN106709032B 公开(公告)日: 2019-12-20
发明(设计)人: 张军;贾西贝 申请(专利权)人: 深圳市华傲数据技术有限公司
主分类号: G06F16/25 分类号: G06F16/25
代理公司: 11514 北京酷爱智慧知识产权代理有限公司 代理人: 任媛
地址: 518000 广东省深圳市龙华新区清*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电子表格文档 业务表格 抽取 中结构 布局分析 数据处理技术 大规模数据 结构化信息 表格识别 算法获取 转换处理 孤立
【权利要求书】:

1.一种抽取电子表格文档中结构化信息的方法,其特征在于,包括:

通过孤立表格识别算法获取电子表格文档中所有业务表格;

对所述业务表格进行布局分析;

根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息;所述通过孤立表格识别算法获取电子表格文档中所有业务表格,包括:

建立与所述电子表格文档的尺寸相同的两个二维bit数组,记为A和B;

遍历所述电子表格文档中的所有单元格,若单元格中有内容,则A中相应位置标记为1,否则标记为0;

遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记;

若B中的值为1,则A中相同位置的值设为1;

根据更新后的A获取所述电子表格文档中的业务表格坐标。

2.根据权利要求1所述的方法,其特征在于,所述遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记,包括:

遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1。

3.根据权利要求2所述的方法,其特征在于,所述遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1后,还包括:

步骤S132,再次遍历所述电子表格文档中的所有单元格,若单元格存在边框线,且B上对应值为0,且与所述单元格相邻的上下左右四个单元格在B中的值至少有一个被标记为1,则将所述单元格在B中的位置标记为1;

步骤S133,再次遍历所述电子表格文档中的所有单元格,若单元格在B上对应值为0,且在包含所述单元格的2×2的区域内,其它三个单元格在B上对应值都是1,则在B上标记所述单元格为1,并且计数器加1;

步骤S134,若所述计数器不为0,则所述计数器清零,重新执行步骤S133。

4.根据权利要求2所述的方法,其特征在于,所述根据更新后的A获取所述电子表格文档中的业务表格坐标,包括:

对更新后的A进行缩小操作,得到LA;

根据LA获取所述电子表格文档中的业务表格坐标。

5.根据权利要求4所述的方法,其特征在于,所述对更新后的A进行缩小操作,得到LA,包括:

从A的最左侧开始遍历A中所有的列,若列中存在1的值,则记录列的列坐标X1,终止遍历;

从A的最右侧开始遍历A中所有的列,若列中存在1的值,则记录列的列坐标X2,终止遍历;

从A的最上侧开始遍历A中所有的行,若行中存在1的值,则记录行的行坐标Y1,终止遍历;

从A的最下侧开始遍历A中所有的行,若行中存在1的值,则记录行的行坐标Y2,终止遍历;

提取出A中[X1,X2,Y1,Y2]位置的数据,形成二维bit数组LA,并根据X1、X2、Y1、Y2确定LA和A的坐标映射关系。

6.根据权利要求5所述的方法,其特征在于,所述根据LA获取所述电子表格文档中的业务表格坐标,包括:

若LA中所有值都为1,则所述电子表格文档中只有一个表格,业务表格坐标为[X1,X2,Y1,Y2];

否则,检测所述电子表格文档中第X1列、第Y1行的单元格是否为空,若单元格不为空,则一直向右检测其余单元格,直到检测到空单元格,记录空单元格的列坐标为X3,

从上向下检测第X1列的单元格是否为空,直到检测到空单元格,记录空单元格的行坐标为第X1列的最大行坐标,继续检测下一列,直到检测完第X3列,

若所有最大行坐标中最大值为Y3,则业务表格坐标为[X1,X3,Y1,Y3],将LA中与[X1,X3,Y1,Y3]相对应位置的内容设为0,得到新的LA;

根据更新后的LA获取所述电子表格文档中的业务表格坐标,直到提取出所述电子表格文档中所有业务表格。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611245472.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top