[发明专利]一种PDF业务文档的信息抽取方法在审
申请号: | 202211562314.1 | 申请日: | 2022-12-07 |
公开(公告)号: | CN116311259A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李佳静;董泽信;戴媛媛;贾网;李小龙;李盛;孟涛 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/146 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 业务 文档 信息 抽取 方法 | ||
本发明公开了一种PDF业务文档的信息抽取方法,涉及文件信息抽取和数据处理领域,包括如下步骤:步骤1、对PDF业务文档的每个页面进行解析,得到表格线列表;步骤2、若能够为一个字符对象生成最小单元格,则判定该字符对象为表格字符;否则判定该字符对象为非表格字符;步骤3、对所有的非表格字符以坐标信息进行拼接、分段,完成非表格区域的文本抽取,并得到每个非表格字符段的中心点的坐标;步骤4、根据非表格字符段的中心点的坐标,对所有最小单元格所属的表格区域进行划分,得到表格区域列表;步骤5、对表格区域列表完成结构和区域文本的抽取。本方法能够提高PDF业务文档,尤其是包含复杂表格的金融披露文档中信息抽取的精度。
技术领域
本发明涉及文件信息抽取和数据处理领域,特别是一种PDF业务文档的信息抽取方法。
背景技术
PDF全称Portable Document Format,是一种便携文档格式,它可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,且不会因为使用的平台不同而产生不同的显示效果,屏幕显示和打印输出就是发布者想要的样子。由于PDF文件优秀的信息展示能力,目前越来越多的公司采用PDF格式文件来发布自己的年报、财报等一些披露文件。而在很多情况下,我们需要从这些文档中包含的表格内提取重要数据信息进行统计和分析等,然而,由于PDF文档内容的获取开放性很低,不同于Word、Latex、HTML格式对表格数据有专门的定义或者标记,PDF文档受固有格式的限制,表格只是文字与线条的集合,因此人们并不能方便的将PDF格式文档中的数据信息转化成可读写的信息。
面向金融信息披露主要是指金融从业机构(以下简称“从业机构”)以招股说明书、上市公告书以及定期报告和临时报告等形式,把从业机构及与从业机构相关的信息,向投资者和社会公众公开披露的行为。真实、全面、及时、充分地进行信息披露,对促进中国互联网金融行业依法合规经营、持续健康发展和切实保障投资者利益至关重要。金融披露文的内容包含数十万字非结构化文本数据以及数百张不同的半结构化表格数据。目前,现有的PDF处理技术中,通常只能对金融披露文档中的文本和简单表格进行抽取。对于一些左右边框缺失的表格、有合并单元格的表格以及外部有文本框的表格,现有技术抽取的效果并不理想,准确率较低,不能满足金融领域中高精度数据的需求。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种PDF业务文档的信息抽取方法,本发明能够减少表格抽取过程中无关文本元素混入的噪音,达到了较好的表格识别与信息抽取性能,具有很高的准确率、泛化能力以及商业应用价值。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种PDF业务文档的信息抽取方法,包括以下步骤:
步骤1、对PDF业务文档的每个页面进行解析,得到当前页面中字符对象、线对象和矩形对象;
根据矩形对象的坐标信息,从矩形对象中筛选出长度大于两个像素且宽度小于一个像素的矩形对象,将其认定为线对象;
字符对象存储在字符列表,线对象存储在线列表;
对线列表进行预处理和筛选操作得到表格线列表;
步骤2 、根据字符列表中字符对象、表格线列表中线对象,若能够为一个字符对象生成最小单元格,则判定该字符对象为表格字符,否则判定该字符对象为非表格字符;最小单元格是指每个字符对象周围最近的四条线对象围成的矩形;
步骤3、对所有的非表格字符以坐标信息进行拼接、分段,完成非表格区域的文本抽取,并得到每个非表格字符段的中心点的坐标;
步骤4、根据非表格字符段的中心点的坐标,对所有最小单元格所属的表格区域进行划分,得到表格区域列表;
步骤5、对每个表格区域列表,首先对各表格区域列表中最小单元格内的字符对象进行拼接,然后对各表格区域列表的最小单元格进行拼接,对表格区域列表完成结构和区域文本的抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211562314.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种儿童玩具车
- 下一篇:一种基于DPDK的SDN网络数据转发方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置