[发明专利]用于识别PDF表格的方法、设备和介质有效
申请号: | 202210007815.7 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114022888B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 朱峰;尹扬;郭鹏华 | 申请(专利权)人: | 上海朝阳永续信息技术股份有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/414 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 pdf 表格 方法 设备 介质 | ||
1.一种用于识别PDF表格的方法,包括:
针对PDF文件检索目标关键字,以便确定PDF文件中的目标表格区域;
获取处于目标表格区域内的多个文本块;
基于所述多个文本块的坐标,确定关于目标表格的扫描区域的左上起点和右下终点,以便提取扫描区域内的所有文本块;
基于所提取的扫描区域内的所有文本块的坐标,确定对角坐标集合,所述对角坐标集合包括所有文本块中的每一个文本块的对角坐标;
扫描对角坐标集合,以便生成扫描结果数组;
遍历扫描结果数组,以便确定目标表格中的单元格文本信息;
构建关于与PDF文件相关联的多个机构的机构关键特征数组;
基于机构关键特征数组,针对基于PDF文件所提取出的文本信息进行检索,以便确定与机构相关联的关键特征出现的次数;以及
基于所计算的与机构相关联的关键特征出现的次数,生成机构权重序列,以用于确定PDF文件的目标关联机构。
2.根据权利要求1所述的方法,其中扫描对角坐标集合以便生成扫描结果数组包括:
将预定义垂直扫描线从对角坐标集合的水平坐标起始处、以预定扫描间隔扫描对角坐标集合,以便将扫描结果保持到列结果数组,所述列结果数组包括与各扫描位置序号对应的扫描采样位置和单次扫描的总命中数;以及
将预定义水平扫描线从对角坐标集合的竖直坐标起始处、以预定扫描间隔扫描对角坐标集合,以便将扫描结果保持到行结果数组,所述行结果数组包括与各扫描位置序号对应的扫描采样位置和单次扫描的总命中数。
3.根据权利要求2所述的方法,其中遍历扫描结果数组以便确定目标表格中的单元格文本信息包括:
遍历列结果数组,以便确定与不为0的单次扫描的总命中数所对应的第一扫描采样位置,以及与为0的单次扫描的总命中数所对应的第二扫描采样位置;
基于第一扫描采样位置和第二扫描采样位置,确定列宽数组;以及
基于列宽数组和列结果数组,确定目标表格中的每列的起点和终点。
4.根据权利要求3所述的方法,其中遍历扫描结果数组以便确定目标表格中的单元格文本信息还包括:
遍历行结果数组,以便确定与不为0的单次扫描的总命中数所对应的第三扫描采样位置,以及与为0的单次扫描的总命中数所对应的第四扫描采样位置;
基于第三扫描采样位置和第四扫描采样位置,确定行宽数组;
基于行宽数组和行结果数组,确定目标表格中的每行的起点和终点;以及
基于每行的起点和终点和每列的起点和终点,确定目标表格中的单元格坐标信息,以便基于单元格坐标信息获取单元格文本信息。
5.根据权利要求1-4中任一项所述的方法,还包括:
获取同行不同列的单元格文本信息;
基于正则表达式判断,确定符合年份字符串格式的单元格文本信息为年份数据;
获取年份数据的列位置信息和行位置信息;
在当前年份数据的行位置信息与下一年份数据的行位置信息之间的单元格文本信息中查询,以便确定第一个具有相同列位置信息、且单元格文本信息均为非数字文本的列为指标标识数据列;
获取指标标识数据列的行位置信息;以及
基于指标标识数据列的行位置信息,将位于指标标识数据列右侧的、与指标标识数据具有相同行位置信息、并且与当前年份数据具有相同列位置信息的文本信息确定为与当前年份数据和当前指标标识数据相关联的数值。
6.根据权利要求1所述的方法,机构关键特征数组包括:与机构相关联的关键特征的数量、关键特征和关键特征所对应的权重。
7.根据权利要求1或6所述的方法,其中确定PDF文件的目标关联机构还包括:
确定与机构权重序列中的最大值所对应的机构;
确定与最大值所对应的机构的数量是否为1;
响应于确定与最大值所对应的机构的数量为1,确定与最大值所对应的机构为PDF文件的目标关联机构;以及
响应于确定与最大值所对应的机构的数量大于1,确定未识别目标关联机构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海朝阳永续信息技术股份有限公司,未经上海朝阳永续信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210007815.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:组织牵引器械
- 下一篇:一种服务资源配置方法、计算设备及存储介质