[发明专利]一种表格结构识别方法在审
| 申请号: | 202110904049.X | 申请日: | 2021-08-06 |
| 公开(公告)号: | CN113627318A | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 张美慧;李辉超 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00 |
| 代理公司: | 北京云嘉湃富知识产权代理有限公司 11678 | 代理人: | 程凌军 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 表格 结构 识别 方法 | ||
1.一种表格结构识别方法,其特征在于,包括初始行列生成阶段和行列生成阶段;
在初始行列生成阶段,将有重叠区域的单元格组织成初始行与初始列;
在行列生成阶段,利用图神经网络预测没有重叠区域的单元格之间的行列关系,作为所述初始行列生成阶段遗漏关系的补充。
2.根据权利要求1所述的方法,其特征在于,在所述初始行列生成阶段,利用文档特征,从文档中提取单元格的位置信息,利用单元格的位置信息判断不同单元格之间垂直/水平方向上是否存在重叠区域,从而初步判断不同单元格之间是否存在同行/列关系,之后根据单元格的高度/宽度信息将有同行/列关系的单元格组织为初始行/初始列。
3.根据权利要求1或2所述的方法,其特征在于,在所述行列生成阶段,基于所述初始行和所述初始列,构造两个分别用于将单元格匹配到所述初始行与所述初始列中的图,利用所述图判断单元格与所述初始行或所述初始列之间的关系,最终生成的行为所述初始行以及所有与所述初始行匹配的单元格的并集,最终生成的列为所述初始列以及所有与所述初始列匹配的单元格的并集。
4.根据权利要求3所述的方法,其特征在于,在所述初始行列生成阶段:
①从输入文档中提取表格对应的单元格信息,其中,单元格的位置由单元格中实际包含的文字界定;
②根据所述单元格信息获取不同单元格之间在水平/垂直方向上的重叠区域,从而得到不同单元格之间的同列/行关系,将同行关系记录在Dr中,将同列关系记录在Dc中;
③初始化初始行集合PR={}和初始列集合PC={};
④向集合PR中添加元素:
若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从Dr中找出所有与其存在同行关系的单元格,将被选择的单元格以及所有与其存在同行关系的单元格合并为初始行pri,将产生的pri添加至PR中,并标记所有存在于pri中的单元格,返回④;否则,保存PR,退出④;
⑤向集合PC中添加元素:
若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从Dc中找出所有与其存在同列关系的单元格,将被选择的单元格以及所有与其存在同列关系的单元格合并为初始列pci,将产生的pci添加至PC中,并标记所有存在于pci中的单元格,返回⑤;否则,保存PC,退出⑤。
5.根据权利要求4所述的方法,其特征在于,④中所述选择未被标记的单元格为选择高度最小且水平方向左边界最小、垂直方向上边界最小的未被标记的单元格。
6.根据权利要求4所述的方法,其特征在于,⑤中所述选择未被标记的单元格为选择宽度最小且垂直方向上边界最小、水平方向左边界最小的未被标记的单元格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110904049.X/1.html,转载请声明来源钻瓜专利网。





