[发明专利]一种PDF表格内容识别方法、系统及存储介质在审

专利信息
申请号: 202211340773.5 申请日: 2022-10-29
公开(公告)号: CN115588210A 公开(公告)日: 2023-01-10
发明(设计)人: 蔡青山;黄威威;黄鑫涛 申请(专利权)人: 企知道网络技术有限公司
主分类号: G06V30/412 分类号: G06V30/412;G06F40/18
代理公司: 北京维正专利代理有限公司 11508 代理人: 黄春晓
地址: 518000 广东省深圳市南山区西丽*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 pdf 表格 内容 识别 方法 系统 存储 介质
【权利要求书】:

1.一种PDF表格内容识别方法,其特征在于,包括如下步骤:

获取包含表格内容的待识别PDF文档;

预处理所述待识别PDF文档,得到预处理文档;

通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;

从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;

对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;

在预设的可编辑文档中基于所述表格特征生成目标表格;

根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。

2.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述预处理所述待识别PDF文档,得到预处理文档包括如下步骤:

检测所述待识别PDF文档是否存在水印图层;

若存在所述水印图层,则删除所述水印图层,得到去水印文档;

对所述去水印文档进行去均值化处理,得到去均值化文档;

对所述去均值化文档进行归一化处理,得到预处理文档。

3.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤:

通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域;

识别所有所述预选表格区域中表头部分的表头内容;

结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域;

将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。

4.根据权利要求3所述的一种PDF表格内容识别方法,其特征在于,所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤:

基于预设的表头内容数据库对所述表头内容进行语义分析,得到所述表格内容的语义契合度;

判断所述语义契合度是否超出预设的契合度阈值;

若所述语义契合度超出所述契合度阈值,则保留对应的预选表格区域;

若所述语义契合度未超出所述契合度阈值,则筛除对应的预选表格区域。

5.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性包括如下步骤:

通过预设的线段识别算法识别所述表格图片中的所有基础线段;

获取所有所述基础线段两端基础线段端点的端点坐标;

基于所述端点坐标标记出所述基础线段端点中的公共交点;

筛除所有所述基础线段中至少一端所述基础线段端点不为所述公共交点的孤立基础线段;

分别统计各个所述公共交点的端点重合数量;

将所述端点重合数量和所述公共交点的交点坐标值作为所述公共交点的交点属性;

结合筛除后的所有所述基础线段和所有所述交点属性生成表格特征;

结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性。

6.根据权利要求5所述的一种PDF表格内容识别方法,其特征在于,所述结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性包括如下步骤:

通过预设的文本识别算法识别所述表格图片中各个单元格内的文本内容,并根据所述文本内容生成文本内容框;

基于所述交点坐标值所在坐标系获取所述文本内容框的内容框坐标值;

结合所述交点坐标值和所述内容框坐标值选取对应文本内容框的关联公共交点;

将所述关联公共交点的关联交点属性和所述文本内容作为对应单元格的文本属性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于企知道网络技术有限公司,未经企知道网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211340773.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top