[发明专利]一种PDF文件的信息抽取方法及装置在审

申请号：	201710067220.X	申请日：	2017-02-06
公开（公告）号：	CN106951400A	公开（公告）日：	2017-07-14
发明（设计）人：	兰任;马超;张道泉;赵继广	申请（专利权）人：	北京因果树网络科技有限公司
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	北京同达信恒知识产权代理有限公司11291	代理人：	黄志华
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置，该方法为，针对PDF文件，分别将每一页中的信息生成相应的树形结构；分别统计每一页相应的树形结构中每一个节点的信息，从每一页中识别并抽取标题、正文、图表标题和图表结尾；进行汇总，对标题进行等级划分，并根据图表标题和图表结尾对图表进行抽取，分别将正文、图表映射到相应的标题和图表标题中，最终生成PDF文件的结构化数据，这样，可以对PDF文件中的标题、正文、图表等进行结构化抽取，进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了用户分析研报内容的时间。
搜索关键词：	一种 pdf 文件信息抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种PDF文件的信息抽取方法，其特征在于，包括：针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果；根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京因果树网络科技有限公司，未经北京因果树网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710067220.X/，转载请声明来源钻瓜专利网。

上一篇：一种涡旋混合器的嵌入模块
下一篇：一种用于生产高强灌浆料的卧式混合机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种PDF文件的信息抽取方法及装置在审

专利文献下载