[发明专利]一种PDF业务文档的信息抽取方法在审
申请号: | 202211562314.1 | 申请日: | 2022-12-07 |
公开(公告)号: | CN116311259A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李佳静;董泽信;戴媛媛;贾网;李小龙;李盛;孟涛 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/146 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 业务 文档 信息 抽取 方法 | ||
1.一种PDF业务文档的信息抽取方法,其特征在于,包括以下步骤:
步骤1、对PDF业务文档的每个页面进行解析,得到当前页面中字符对象、线对象和矩形对象;
根据矩形对象的坐标信息,从矩形对象中筛选出长度大于两个像素且宽度小于一个像素的矩形对象,将其认定为线对象;
字符对象存储在字符列表,线对象存储在线列表;
对线列表进行预处理和筛选操作得到表格线列表;
步骤2 、根据字符列表中字符对象、表格线列表中线对象,若能够为一个字符对象生成最小单元格,则判定该字符对象为表格字符,否则判定该字符对象为非表格字符;最小单元格是指每个字符对象周围最近的四条线对象围成的矩形;
步骤3、对所有的非表格字符以坐标信息进行拼接、分段,完成非表格区域的文本抽取,并得到每个非表格字符段的中心点的坐标;
步骤4、根据非表格字符段的中心点的坐标,对所有最小单元格所属的表格区域进行划分,得到表格区域列表;
步骤5、对每个表格区域列表,首先对各表格区域列表中最小单元格内的字符对象进行拼接,然后对各表格区域列表的最小单元格进行拼接,对表格区域列表完成结构和区域文本的抽取。
2.根据权利要求1所述的一种PDF业务文档的信息抽取方法,其特征在于,步骤1中对线列表进行预处理和筛选操作,具体过程如下:
步骤101、根据线列表中的线对象的坐标信息,在所有线对象中识别出水平线对象和垂直线对象;根据PDF业务文档中表格在垂直方向上左右对齐的特性,从线对象的坐标信息中得到当前PDF页面中水平方向上表格的最左点和最右点;
步骤102、针对PDF业务文档中存在的文本框线,该文本框线不是表格线,对文本框线进行过滤;过滤的方法为:如果一条水平线对象的横坐标长度和当前PDF页面中水平方向上表格的最右点与最左点的间隔相等,则认定该条水平线对象为一条水平文本框线,将它从线列表删除;再利用识别出的水平文本框线的坐标判定垂直文本框边线,并将垂直文本框边线从线列表中删除;此时的线列表即为表格线列表。
3.根据权利要求2所述的一种PDF业务文档的信息抽取方法,其特征在于,利用识别出的水平文本框线的坐标判定垂直文本框边线的方法为:如果一条垂直线对象的纵坐标与水平文本框线的纵坐标相等,则认定该条垂直线对象为垂直文本框线。
4.根据权利要求2所述的一种PDF业务文档的信息抽取方法,其特征在于,步骤2具体如下:
步骤201、遍历字符列表,以每一个字符对象的坐标为基准,与表格线列表中的每一个线对象的坐标作比较,分别找到距离该字符对象上下左右四个方向上最近的四条线对象,并生成最小单元格;针对缺边表格,将缺边表格的最左点和最右点作为表格缺失的线对象的坐标,使字符对象成功生成最小单元格;
步骤202、将成功生成的最小单元格存储在以最小单元格坐标为键、字符对象为值的最小单元格字典中;如果最小单元格已经被生成过,则只将字符对象追加到该最小单元格的值内;
步骤203、如果字符对象找不到上下左右的四条线对象,即无法生成最小单元格,则认定该字符对象为非表格字符。
5.根据权利要求4所述的一种PDF业务文档的信息抽取方法,其特征在于,步骤3中,所述每个非表格字符段的中心点坐标的计算过程如下:
步骤301、根据非表格字符的坐标信息生成文本行列表,文本行列表的每个元素存储着非表格区域一行文本的所有非表格字符;
步骤302、根据文本行列表中的每行文本的最前的两个非表格字符的坐标信息计算出每行文本的行中心点(x,y),其中,x为行中心点的横坐标值,y为行中心点的纵坐标值;
步骤303、如果存在两行文本的行中心点的y之差在预设的阈值范围内,则认定这两行文本为同段落文本,否则这两行文本为两个不同的段落;
步骤304、对每段文本的所有行中心点求平均值作为每个非表格字符段的中心点的坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211562314.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种儿童玩具车
- 下一篇:一种基于DPDK的SDN网络数据转发方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置