[发明专利]表格结构识别方法、装置、电子设备及存储介质有效
申请号: | 202110206569.3 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112949443B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 王文浩 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/414;G06V30/19;G06V30/18 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 结构 识别 方法 装置 电子设备 存储 介质 | ||
1.一种表格结构识别方法,其特征在于,所述方法包括:
获取训练数据集,将所述训练数据集进行文本框检测与识别,得到多个文本框,将所述多个文本框中每个文本框作为一个节点,并根据预设关系条件判断任意两个节点间的邻接关系,得到表格结构关系,根据所述表格结构关系构造邻接矩阵,得到标签;
利用所述训练数据集和所述标签对预构建的原始表格结构识别模型进行训练,得到标准表格结构识别模型,所述标准表格结构识别模型包括翻译层、变换层和全连接层;
获取待识别表格页面,并构建所述待识别表格页面的文档节点特征与表格线特征;
将所述文档节点特征和所述表格线特征整合,得到输入特征,利用所述翻译层对所述输入特征进行编码和解码,得到各个节点特征,利用所述变换层对任意两个节点之间的所述节点特征输入进行双线性变换,得到边特征,利用所述全连接层对任意两个节点之间的邻接关系,得到预测表格结构关系,其中,所述预测表格结构关系包括表关系、行关系和列关系;
根据所述预测表格结构关系对所述待识别表格页面进行还原处理,得到表格结构。
2.如权利要求1所述的表格结构识别方法,其特征在于,所述获取训练数据集,包括:
从网页中爬取多个PDF文档,并对多个所述PDF文档进行解析和筛选,得到多个表格页面;
将每个所述表格页面转化为页面图片,并对所述页面图片进行文字检测与识别,得到识别结果;
根据所述识别结果将所述页面图片中不符合预设规则的页面图片进行删除,得到训练数据集。
3.如权利要求1所述的表格结构识别方法,其特征在于,所述利用所述训练数据集和所述标签对预构建的原始表格结构识别模型进行训练,得到标准表格结构识别模型,包括:
对所述训练数据集进行预处理,得到训练特征;
通过所述原始表格结构识别模型对所述训练特征进行表格识别,得到关系预测矩阵;
根据所述标签和预设的损失函数计算所述关系预测矩阵的损失值;
根据所述损失值对所述原始表格结构识别模型的参数进行调整,并返回上述通过所述原始表格结构识别模型对所述训练特征进行表格识别,得到关系预测矩阵的步骤,直到所述损失值不再下降,得到标准表格结构识别模型。
4.如权利要求1所述的表格结构识别方法,其特征在于,所述构建所述待识别表格页面的文档节点特征与表格线特征,包括:
对所述待识别表格页面进行文本框检测与识别,得到文本框,其中,所述文本框包括多个文本条和对应的文本框坐标;
根据所述文本框的文本框坐标构建所述文本框的位置特征;
根据所述文本框的文本条构建所述文本框的文本特征;
根据预设线条规则构建所述文本框的线类型特征;
将所述文本框的位置特征、所述文本框的文本特征和所述文本框的线类型特征汇集得到文档节点特征;
对所述待识别表格页面进行表格线检测,得到表格线;
根据所述表格线的端点坐标构建所述表格线的位置特征;
根据预设文本条件构建所述表格线的文本特征;
根据所述表格线的类型构建所述表格线的线类型特征;
将所述表格线的位置特征、所述表格线的文本特征和所述表格线的线类型特征汇集得到表格线特征。
5.如权利要求1所述的表格结构识别方法,其特征在于,所述根据所述预测表格结构关系对所述待识别表格页面进行还原处理,得到表格结构,包括:
对所述待识别表格页面进行文本框检测与识别,得到多个文本框;
根据所述预测表格结构关系中的表关系将每个所述文本框作为节点,构建无向图,得到表关系图;
通过求解所述表关系图的连通分量将所述节点划分为多个表格集;
根据所述预测表格结构关系的行关系和列关系对每个所述表格集分别构建行关系图和列关系图;
利用极大团算法求解所述行关系图中的行极大团,并按照行极大团的纵坐标从大到小进行排序,得到行集合;
利用极大团算法求解所述列关系图中的列极大团,并按照列极大团的横坐标从小到大进行排序,得到列集合;
将所述行集合和所述列集合进行整合,得到表格结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110206569.3/1.html,转载请声明来源钻瓜专利网。