[发明专利]一种表格结构识别方法在审
| 申请号: | 202110904049.X | 申请日: | 2021-08-06 |
| 公开(公告)号: | CN113627318A | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 张美慧;李辉超 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00 |
| 代理公司: | 北京云嘉湃富知识产权代理有限公司 11678 | 代理人: | 程凌军 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 表格 结构 识别 方法 | ||
本发明涉及一种表格结构识别方法,属于模式识别技术领域。包括两个过程:初始行列生成阶段和行列生成阶段。在初始行列生成阶段,通过启发式的算法将有重叠区域的单元格组织成初始行与初始列;由于没有重叠关系的单元格也可能存在同行/列关系,因此在行列生成阶段,利用图神经网络来主要预测没有重叠区域的单元格之间的行列关系,作为遗漏关系的补充;为了降低预测的计算复杂度,单元格之间的关系实际上通过预测单元格与初始行/初始列之间的关系得到。对比现有技术,本发明减少了模型需要判断关系的单元格数,并基于初始行与初始列给后续图模型的构建以及特征提取提供了先验知识;最后能够生成表格的行与列,其能完全还原表格的结构。
技术领域:
本发明涉及表格识别技术,特别涉及一种表格结构识别方法,属于计算机技术、模式识别、人工智能技术领域。
背景技术
表格含有丰富的结构化数据,因而对数据挖掘应用而言是一种重要的数据源。然而,在广泛使用的文档格式例如PDF或者图像中,表格的结构化信息是不能够直接利用的。为了能够从这些格式的文档中提取出表格的结构,一般的做法是人为设定规则,例如检测表格的框线,之后根据文档与规则是否匹配进行后续处理。然而,由于表格的样式多变,例如表格中的框线不存在,导致人为设定的规则无法适用于各式各样的表格。为了处理不同样式的表格,一种较好的方式是通过数据驱动的方式,使机器自动地学习与样式无关的特征,并将学习到的特征用于表格结构的提取。
目前,一种基于图注意力网络的表格结构识别方法已经被提出,该方法通过工具获得单元格的空间位置,之后根据单元格的空间分布,设定了一系列的初始特征,初始特征通过图注意力网络得到深度特征,深度特征最后被用于判断表格中每个单元格与其k个最近单元格是否存在行、列关系。这种方法具备适用性较强的特点,但是,因为这种方法没有判断所有单元格之间的关系,因此其检测到的关系不足以还原表格结构;同时,由于部分单元格之间的行列关系能够通过规则进行判断,使用图注意力网络对这些关系进行判断造成了较高的计算复杂度。
本发明就是在上述方法优缺点的基础上,提出的一种改进的表格结构识别的方法,改进后的方法具有强的适用性,能够直接还原出表格的结构,并进一步地降低了计算复杂度。
发明内容
本发明的目的在于针对现有技术的不足,为了解决从文档中提取表格结构的问题,提供一种表格结构识别方法,针对文档表格实现高效,泛化性强的表格结构提取。
为了实现上述目的,本发明提供了一种表格结构识别方法,包括初始行列生成阶段和行列生成阶段;
在初始行列生成阶段,将有重叠区域的单元格组织成初始行与初始列;
在行列生成阶段,利用图神经网络预测没有重叠区域的单元格之间的行列关系,作为所述初始行列生成阶段遗漏关系的补充。
根据本发明实施例的一种具体实现方式,在所述初始行列生成阶段,利用文档特征,从文档中提取单元格的位置信息,利用单元格的位置信息判断不同单元格之间垂直/水平方向上是否存在重叠区域,从而初步判断不同单元格之间是否存在同行/列关系,之后根据单元格的高度/宽度信息将有同行/列关系的单元格组织为初始行/初始列。
根据本发明实施例的一种具体实现方式,在所述行列生成阶段,基于所述初始行和所述初始列,构造两个分别用于将单元格匹配到所述初始行与所述初始列中的图,利用所述图判断单元格与所述初始行或所述初始列之间的关系,最终生成的行为所述初始行以及所有与所述初始行匹配的单元格的并集,最终生成的列为所述初始列以及所有与所述初始列匹配的单元格的并集。
根据本发明实施例的一种具体实现方式,在所述初始行列生成阶段:
①从输入文档中提取表格对应的单元格信息,其中,单元格的位置由单元格中实际包含的文字界定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110904049.X/2.html,转载请声明来源钻瓜专利网。





