[发明专利]一种PDF文件的信息抽取方法及装置在审

专利信息
申请号: 201710067220.X 申请日: 2017-02-06
公开(公告)号: CN106951400A 公开(公告)日: 2017-07-14
发明(设计)人: 兰任;马超;张道泉;赵继广 申请(专利权)人: 北京因果树网络科技有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 北京同达信恒知识产权代理有限公司11291 代理人: 黄志华
地址: 100080 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 pdf 文件 信息 抽取 方法 装置
【权利要求书】:

1.一种PDF文件的信息抽取方法,其特征在于,包括:

针对PDF文件,分别获取所述PDF文件的每一页中的信息,并根据信息的类型,分别将每一页中的信息生成相应的树形结构;

针对每一页相应的树形结构,分别统计每一页相应的树形结构中每一个节点的信息,根据每一个节点的信息的位置、高度、宽度,分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾,并根据预设规则,将图标标题和图标结尾进行配对;

汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾,根据标题的高度和样式,对标题进行等级划分,并根据配对的图表标题和图表结尾的位置,分别从每一页中识别并抽取图表,以及分别将正文、图表映射到相应的标题和图表标题中,获得PDF文件的汇总结果;

根据PDF文件的汇总结果,生成所述PDF文件的结构化数据。

2.如权利要求1所述的方法,其特征在于,进一步包括:

获取PDF文件,并针对所述PDF文件按页分解,分别生成每一页对应的新的PDF文件;

分别获取每一页对应的新的PDF文件的宽度和高度;

按照每一页对应的新的PDF文件的宽度和高度,分别将每一页对应的新的PDF文件放大预设倍数后,转换成相应的图片。

3.如权利要求1或2所述的方法,其特征在于,分别统计每一页相应的树形结构中每一个节点的信息,根据每一个节点的信息的位置、高度、宽度,分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾,具体包括:

分别统计每一页相应的树形结构中的行文本节点的位置和高度,确定每一页中正文的位置和高度;

分别统计每一页相应的树形结构在预设范围内的节点的信息,并将每一页中的预设范围内的信息进行对比,根据每一页中的预设范围内的信息的相似度,确定每一页的头部和尾部的位置;

根据每一页的头部和尾部的位置、每一页中正文的位置,分别从每一页中识别并抽取包含正文的主体文本;

从抽取的包含正文的主体文本中识别出标题,并将正文划分成各个段落;

根据预设的正则表达式,分别从每一页中识别并抽取图表标题和图标结尾。

4.如权利要求3所述的方法,其特征在于,分别统计每一页相应的树形结构中的行文本节点的位置和高度,确定每一页中正文的位置和高度,具体包括:

分别统计每一页相应的树形结构中的行文本节点的X轴偏移量和高度,将相同X轴偏移量和高度的行文本数量最大,对应的X轴偏移量和高度作为每一页中正文的X轴偏移量和高度;其中,位置至少包括相对于预设的坐标原点的X轴偏移量。

5.如权利要求3所述的方法,其特征在于,从抽取的包含正文的主体文本中识别出标题,并将正文划分成各个段落,具体包括:

根据高度、宽度、上下文本的距离是否有标题的标识,将符合预设策略的主体正文作为识别出的标题标题;其中,预设策略为以下一种或任意组合:高度大于正文高度+1且小于30、与上一个文本距离大于9且与下一个文本距离大于9且有标题标识、与上一个文本距离大于10且高度为正文高度且宽度小于下一行文本宽度的60%;

根据换行符节点的信息、上下文本距离和图表标题,将正文划分成各个段落;

针对识别并抽取出的标题和段落,根据设定的条件,将误识别的标题进行过滤。

6.如权利要求1、2、4或5所述的方法,其特征在于,根据标题的高度和样式,对标题进行等级划分,具体包括:

根据标题的样式,将标题的样式相同的标题归为一个类别,获得归于各个类别的标题;

根据标题的高度,按照标题的高度由大到小的顺序,确定各个类别的标题之间的等级关系,对标题进行等级划分。

7.如权利要求2所述的方法,其特征在于,根据配对的图表标题和图表结尾的位置,分别从每一页中识别并抽取图表,具体包括:

根据配对的图表标题和图表结尾的位置,确定图表是否跨页,若是,则分别计算跨页的图表在各个相应的页中的位置,否则,则分别计算每一页中的图表的位置;

根据图表的位置,分别从每一页相应的图片中识别并抽取图表,并针对跨页的图表进行拼接,获得最终的图表。

8.如权利要求1所述的方法,其特征在于,进一步包括:

根据实际需求,将所述PDF文件的结构化数据保存到相应的的数据库中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京因果树网络科技有限公司,未经北京因果树网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710067220.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top