[发明专利]PDF不完整框线表格提取方法、装置、设备及存储介质有效
申请号: | 202011073584.7 | 申请日: | 2020-10-09 |
公开(公告)号: | CN112380812B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 周玉;李小青 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/163 | 分类号: | G06F40/163;G06F40/174;G06F40/18;G06V30/412 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 完整 表格 提取 方法 装置 设备 存储 介质 | ||
本公开提供了一种PDF不完整框线表格处理方法,包括:S1、对PDF页面进行解析,解析出PDF页面的元素;S2、判断解析出的元素中是否至少包含水平线段元素和/或垂直线段元素,至少基于水平线段元素的特征判断PDF页面中是否包含表格;S3、如果PDF页面中包含表格,至少基于垂直线段元素的特征判断表格为完整框线表格或者不完整框线表格;S4、如果表格为不完整框线表格,则获取PDF页面中的所有文本块以及每个文本块的位置信息,至少基于每个文本块的位置信息获取PDF页面中的初步表格区域;以及S5、基于水平线段元素和/或垂直线段元素,对初步表格区域进行修正,获得修正表格区域。本公开还提供了PDF不完整框线表格处理装置、电子设备以及存储介质。
技术领域
本公开涉及一种PDF不完整框线表格提取方法、装置、设备及存储介质,属于PDF文档识别技术领域。
背景技术
PDF(便携式文件格式,Portable Document Format)是目前使用最广泛的文档格式之一,主要用于文件交换与打印等,无法与其他计算机程序进行交互。
随着PDF在金融、科研、教育等领域的广泛应用,自动进行PDF文档识别并从中提取有用数据成为一个备受关注的问题。
PDF文档主要由文本、图像、表格、公式等内容组成,其中,作为一种极高效的数据组织与展现方式,表格的识别成为一个亟待解决的问题。表格识别包括表格检测与表格结构识别,表格检测是指从PDF页面中检测出表格所在区域;表格结构识别是指在检测到表格区域的基础上,识别表格的逻辑结构与单元格内容。
PDF文档中包含的表格可以分为两类:完整框线表格与不完整框线表格。其中,完整框线表格的识别较为简单,目前开源PDF表格提取工具已经可以达到较高的准确率;而不完整框线表格的识别则存在问题较多:如表格检测准确率较低(目前camelot、pdfplumber等开源工具会将表格之外的文本内容错误检测到表格区域内)、表格结构识别不完整(现有技术仅进行基础的表格结构识别,未对结果中存在的空白单元格进行合并,表格的可读性较差及后续利用存在困难)、自动化程度低(不能完全自动进行表格提取)等问题。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种PDF不完整框线表格提取方法、装置、设备及存储介质。
本公开的PDF不完整框线表格提取方法、装置、设备及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供了一种PDF不完整框线表格处理方法,包括:S1、对PDF页面进行解析,解析出所述PDF页面的元素;S2、判断解析出的元素中是否至少包含水平线段元素和/或垂直线段元素,至少基于所述水平线段元素的特征判断所述PDF页面中是否包含表格;S3、如果所述PDF页面中包含表格,至少基于所述垂直线段元素的特征判断所述表格为完整框线表格或者不完整框线表格;S4、如果所述表格为不完整框线表格,则获取所述PDF页面中的所有文本块以及每个文本块的位置信息,至少基于每个所述文本块的位置信息获取所述PDF页面中的初步表格区域;以及S5、基于所述水平线段元素和/或垂直线段元素,对所述初步表格区域进行修正,获得修正表格区域。
根据本公开的至少一个实施方式的PDF不完整框线表格处理方法,步骤S2中,至少基于所述水平线段元素的特征判断所述PDF页面中是否包含表格,包括:判断所述PDF页面中是否存在水平线段元素,如果存在水平线段元素,则将水平线段元素的数量与阈值数量进行比较,如果大于阈值数量,则判断每个水平线段元素的长度是否相同,如果相同,则判定所述PDF页面中包含表格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011073584.7/2.html,转载请声明来源钻瓜专利网。