[发明专利]抽取电子表格文档中结构化信息的方法及装置有效
申请号: | 201611245472.9 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106709032B | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 张军;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 11514 北京酷爱智慧知识产权代理有限公司 | 代理人: | 任媛 |
地址: | 518000 广东省深圳市龙华新区清*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子表格文档 业务表格 抽取 中结构 布局分析 数据处理技术 大规模数据 结构化信息 表格识别 算法获取 转换处理 孤立 | ||
本发明属于数据处理技术领域,具体涉及一种抽取电子表格文档中结构化信息的方法及装置。本发明提供的抽取电子表格文档中结构化信息的方法,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。本发明提供的抽取电子表格文档中结构化信息的方法及装置,实现了自动批量获取电子表格文档中所有业务表格的功能,提高了大规模数据抽取的效率。
技术领域
本发明涉及数据处理技术领域,具体涉及一种抽取电子表格文档中结构化信息的方法及装置。
背景技术
电子表格文档,如Excel,虽然叫表格软件,但是仍然是非结构化或者半结构化的数据。而且一个电子表格文档中会有多个页签,每个页签中可能存在多个孤立的业务表格,而每个业务表格的布局可能非常随意。所以表格中的数据没有办法直接使用,需抽取后进行一定处理后转换成结构化数据。现有的数据抽取算法很难处理这么复杂、多变的情况。
发明内容
针对现有技术中的缺陷,本发明提供的抽取电子表格文档中结构化信息的方法及装置,实现了自动批量获取电子表格文档中所有业务表格的功能,提高了大规模数据抽取的效率。
第一方面,本发明提供的一种抽取电子表格文档中结构化信息的方法,包括:通过孤立表格识别算法获取电子表格文档中所有业务表格;对所述业务表格进行布局分析;根据布局分析结果从所述业务表格中抽取内容,并做对应的转换处理得到结构化信息。
本发明提供的抽取电子表格文档中结构化信息的方法,通过孤立表格识别算法可以自动批量地获取电子表格文档中所有独立的业务表格,提高了大规模数据抽取的效率;通过对业务表格进行布局分析后再抽取业务数据,提高了抽取数据的可靠性,尤其对大规模半结构化数据识别和抽取时更为有效。
优选地,所述通过孤立表格识别算法获取电子表格文档中所有业务表格,包括:建立与所述电子表格文档的尺寸相同的两个二维bit数组,记为A和B;遍历所述电子表格文档中的所有单元格,若单元格中有内容,则A中相应位置标记为1,否则标记为0;遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记;若B中的值为1,则A中相同位置的值设为1;根据更新后的A获取所述电子表格文档中的业务表格坐标。
优选地,所述遍历所述电子表格文档中的所有单元格,根据单元格的边框线对B进行标记,包括:遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1。
优选地,所述遍历所述电子表格文档中的所有单元格,若单元格的四个边角至少有一个边角存在两条边框线,则B中相应位置标记为1后,还包括:步骤S132,再次遍历所述电子表格文档中的所有单元格,若单元格存在边框线,且B上对应值为0,且与所述单元格相邻的上下左右四个单元格在B中的值至少有一个被标记为1,则将所述单元格在B中的位置标记为1;步骤S133,再次遍历所述电子表格文档中的所有单元格,若单元格在B上对应值为0,且在包含所述单元格的2×2的区域内,其它三个单元格在B上对应值都是1,则在B上标记所述单元格为1,并且计数器加1;步骤S134,若所述计数器不为0,则所述计数器清零,重新执行步骤S133。
优选地,所述根据更新后的A获取所述电子表格文档中的业务表格坐标,包括:对更新后的A进行缩小操作,得到LA;根据LA获取所述电子表格文档中的业务表格坐标业务表格坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611245472.9/2.html,转载请声明来源钻瓜专利网。