[发明专利]表格结构化信息提取方法、装置及电子设备有效

专利信息
申请号: 202110272444.0 申请日: 2021-03-12
公开(公告)号: CN113297308B 公开(公告)日: 2023-09-22
发明(设计)人: 李壮 申请(专利权)人: 贝壳找房(北京)科技有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/22
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 苗晓静
地址: 100080 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 表格 结构 信息 提取 方法 装置 电子设备
【说明书】:

本申请实施例公开了一种表格结构化信息提取方法、装置及电子设备,所述方法包括:提取图片中表格包含的线段、线段的位置、表格中包含的文字内容以及文字内容的位置;根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将图片中的表格进行重建,得到重建后的表格;根据预先建立的表格结构解析关系,对重建后的表格进行结构化信息提取,得到与图片中的表格对应的结构化信息。本申请实施例通过表格重建和表格结构解析关系,可以将图片中的表格信息转换成结构化的信息,进而发挥其应用价值。

技术领域

本申请涉及数据处理技术领域,具体涉及一种表格结构化信息提取方法、装置及电子设备。

背景技术

表格作为一种有效的数据组织与展现方法被广泛应用,在日常工作中会遇到图片包含了多个表格信息的情况,且每个表格的布局可能大不相同。

然而现有的数据抽取算法很难处理表格布局复杂多变的情况,无法有效的将图片中出现的表格信息转换成具有高度组织和整齐格式化的数据,因此导致图片中的表格信息无法发挥其应有的价值。

发明内容

由于现有方法存在上述问题,本申请实施例提供一种表格结构化信息提取方法、装置及电子设备。

具体的,本申请实施例提供了以下技术方案:

第一方面,本申请实施例提供一种表格结构化信息提取方法,包括:

提取图片中表格包含的线段、所述线段的位置,表格中包含的文字内容以及所述文字内容的位置;

根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格;

根据预先建立的表格结构解析关系,对所述重建后的表格进行结构化信息提取,得到与所述图片中的表格对应的结构化信息。

可选的,所述根据提取得到的线段、线段的位置、文字内容和文字内容的位置,将所述图片中的表格进行重建,得到重建后的表格,包括:

根据提取得到的线段和线段的位置,重建表格结构;

根据重建后的所述表格结构,以及提取得到的文字内容和文字内容的位置,还原所述表格结构中的文字内容;

根据所述表格结构和还原的文字内容得到重建后的表格。

可选的,根据提取得到的线段和线段的位置,重建表格结构,包括:

当图片中的表格为直线表格时,提取表格中的线段和线段的位置,并根据提取得到的线段和线段的位置,重建表格结构;

当图片中的表格为弯曲表格时,提取表格中的线段和线段的位置,并根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,根据合并后的线段以及合并后的线段的位置,重建表格结构。

可选的,所述根据提取到的相邻线段之间的夹角和距离判断所提取得到的相邻线段是否满足合并条件,当满足合并条件时,将所提取得到的相邻线段进行合并,包括:

当提取到的相邻两条线段之间的夹角小于15°,且两条线段之间的距离小于2像素时,将所述相邻两条线段进行合并。

可选的,当图片中的表格为直线表格或者弯曲表格时,所述重建表格结构,包括:

根据提取得到的线段或合并后的线段与水平线的角度,将提取得到的线段或合并后的线段划分为水平线段集合和竖直线段集合;其中,所述水平线段集合中包含至少一条水平线段;所述竖直线段集合中包含至少一条竖直线段;

确定所述水平线段集合中所有的水平线段与所述竖直线段集合中所有的竖直线段之间产生的交点,并根据产生的交点生成线段交点集合;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110272444.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top