[发明专利]表格结构识别方法、装置、电子设备及存储介质有效
申请号: | 202110206569.3 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112949443B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 王文浩 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/414;G06V30/19;G06V30/18 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 结构 识别 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据分析技术领域,揭露了一种表格结构识别方法,包括:获取训练数据集,并构建标签;利用所述训练数据集和所述标签对原始表格结构识别模型进行训练,得到标准表格结构识别模型;获取待识别表格页面,并构建文档节点特征与表格线特征;利用所述标准表格结构识别模型对所述文档节点特征与表格线特征进行表格检测与识别,得到预测表格结构关系;根据所述预测表格结构关系对所述待识别表格页面进行还原处理,得到表格结构。此外,本发明还涉及区块链技术,所述待识别表格页面可存储于区块链的节点。本发明还提出一种表格结构识别装置、电子设备以及计算机可读存储介质。本发明可以解决对于图像的依赖性和表格识别效果较差的问题。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种表格结构识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着大数据时代的到来,如何从海量数据中获取关键、有价值的信息越来越受到重视。如从各大医院、体检机构中患者费用清单、化验单、体检报告等单据中提取信息,可以提高医生后续的诊断效率。文档中的表格结构可以清晰显示出原始文档数据的逻辑与定量关系,很多信息通常以表格的形式呈现,从表格中提取信息前就必不可少的需要先还原表格结构。
传统的表格结构识别是采用基于图像处理的方法,采用图像中检测或分割的方法进行表格结构的识别与还原。但这种方法高度依赖于图像质量,当图像质量低、背景复杂、表格色彩底纹明显时,表格结构的检测和识别效果较差,同时不具有良好的泛化能力。
发明内容
本发明提供一种表格结构识别方法、装置及计算机可读存储介质,其主要目的在于解决对于图像的依赖性和表格识别效果较差的问题。
为实现上述目的,本发明提供的一种表格结构识别方法,包括:
获取训练数据集,并构建所述训练数据集的标签;
利用所述训练数据集和所述标签对预构建的原始表格结构识别模型进行训练,得到标准表格结构识别模型;
获取待识别表格页面,并构建所述待识别表格页面的文档节点特征与表格线特征;
利用所述标准表格结构识别模型对所述文档节点特征与表格线特征进行表格检测与识别,得到预测表格结构关系;
根据所述预测表格结构关系对所述待识别表格页面进行还原处理,得到表格结构。
可选地,所述获取训练数据集,包括:
从网页中爬取多个PDF文档,并对多个所述PDF文档进行解析和筛选,得到多个表格页面;
将每个所述表格页面转化为页面图片,并对所述页面图片进行文字检测与识别,得到识别结果;
根据所述识别结果将所述页面图片中不符合预设规则的页面图片进行删除,得到训练数据集。
可选地,所述构建所述训练数据集的标签,包括:
将所述训练数据集进行文本框检测与识别,得到多个文本框;
将所述多个文本框中每个文本框作为一个节点,并根据预设关系条件判断任意两个节点间的邻接关系,得到表格结构关系;
根据所述表格结构关系构造邻接矩阵,得到标签。
可选地,所述利用所述训练数据集和所述标签对预构建的原始表格结构识别模型进行训练,得到标准表格结构识别模型,包括:
对所述训练数据集进行预处理,得到训练特征;
通过所述原始表格结构识别模型对所述训练特征进行表格识别,得到关系预测矩阵;
根据所述标签和预设的损失函数计算所述关系预测矩阵的损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110206569.3/2.html,转载请声明来源钻瓜专利网。