[发明专利]一种PDF文件的信息抽取方法及装置在审
申请号: | 201710067220.X | 申请日: | 2017-02-06 |
公开(公告)号: | CN106951400A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 兰任;马超;张道泉;赵继广 | 申请(专利权)人: | 北京因果树网络科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 信息 抽取 方法 装置 | ||
1.一种PDF文件的信息抽取方法,其特征在于,包括:
针对PDF文件,分别获取所述PDF文件的每一页中的信息,并根据信息的类型,分别将每一页中的信息生成相应的树形结构;
针对每一页相应的树形结构,分别统计每一页相应的树形结构中每一个节点的信息,根据每一个节点的信息的位置、高度、宽度,分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾,并根据预设规则,将图标标题和图标结尾进行配对;
汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾,根据标题的高度和样式,对标题进行等级划分,并根据配对的图表标题和图表结尾的位置,分别从每一页中识别并抽取图表,以及分别将正文、图表映射到相应的标题和图表标题中,获得PDF文件的汇总结果;
根据PDF文件的汇总结果,生成所述PDF文件的结构化数据。
2.如权利要求1所述的方法,其特征在于,进一步包括:
获取PDF文件,并针对所述PDF文件按页分解,分别生成每一页对应的新的PDF文件;
分别获取每一页对应的新的PDF文件的宽度和高度;
按照每一页对应的新的PDF文件的宽度和高度,分别将每一页对应的新的PDF文件放大预设倍数后,转换成相应的图片。
3.如权利要求1或2所述的方法,其特征在于,分别统计每一页相应的树形结构中每一个节点的信息,根据每一个节点的信息的位置、高度、宽度,分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾,具体包括:
分别统计每一页相应的树形结构中的行文本节点的位置和高度,确定每一页中正文的位置和高度;
分别统计每一页相应的树形结构在预设范围内的节点的信息,并将每一页中的预设范围内的信息进行对比,根据每一页中的预设范围内的信息的相似度,确定每一页的头部和尾部的位置;
根据每一页的头部和尾部的位置、每一页中正文的位置,分别从每一页中识别并抽取包含正文的主体文本;
从抽取的包含正文的主体文本中识别出标题,并将正文划分成各个段落;
根据预设的正则表达式,分别从每一页中识别并抽取图表标题和图标结尾。
4.如权利要求3所述的方法,其特征在于,分别统计每一页相应的树形结构中的行文本节点的位置和高度,确定每一页中正文的位置和高度,具体包括:
分别统计每一页相应的树形结构中的行文本节点的X轴偏移量和高度,将相同X轴偏移量和高度的行文本数量最大,对应的X轴偏移量和高度作为每一页中正文的X轴偏移量和高度;其中,位置至少包括相对于预设的坐标原点的X轴偏移量。
5.如权利要求3所述的方法,其特征在于,从抽取的包含正文的主体文本中识别出标题,并将正文划分成各个段落,具体包括:
根据高度、宽度、上下文本的距离是否有标题的标识,将符合预设策略的主体正文作为识别出的标题标题;其中,预设策略为以下一种或任意组合:高度大于正文高度+1且小于30、与上一个文本距离大于9且与下一个文本距离大于9且有标题标识、与上一个文本距离大于10且高度为正文高度且宽度小于下一行文本宽度的60%;
根据换行符节点的信息、上下文本距离和图表标题,将正文划分成各个段落;
针对识别并抽取出的标题和段落,根据设定的条件,将误识别的标题进行过滤。
6.如权利要求1、2、4或5所述的方法,其特征在于,根据标题的高度和样式,对标题进行等级划分,具体包括:
根据标题的样式,将标题的样式相同的标题归为一个类别,获得归于各个类别的标题;
根据标题的高度,按照标题的高度由大到小的顺序,确定各个类别的标题之间的等级关系,对标题进行等级划分。
7.如权利要求2所述的方法,其特征在于,根据配对的图表标题和图表结尾的位置,分别从每一页中识别并抽取图表,具体包括:
根据配对的图表标题和图表结尾的位置,确定图表是否跨页,若是,则分别计算跨页的图表在各个相应的页中的位置,否则,则分别计算每一页中的图表的位置;
根据图表的位置,分别从每一页相应的图片中识别并抽取图表,并针对跨页的图表进行拼接,获得最终的图表。
8.如权利要求1所述的方法,其特征在于,进一步包括:
根据实际需求,将所述PDF文件的结构化数据保存到相应的的数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京因果树网络科技有限公司,未经北京因果树网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710067220.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种涡旋混合器的嵌入模块
- 下一篇:一种用于生产高强灌浆料的卧式混合机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置