[发明专利]一种PDF文件的信息抽取方法及装置在审
申请号: | 201710067220.X | 申请日: | 2017-02-06 |
公开(公告)号: | CN106951400A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 兰任;马超;张道泉;赵继广 | 申请(专利权)人: | 北京因果树网络科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及信息处理领域,尤其涉及一种PDF文件的信息抽取方法及装置,该方法为,针对PDF文件,分别将每一页中的信息生成相应的树形结构;分别统计每一页相应的树形结构中每一个节点的信息,从每一页中识别并抽取标题、正文、图表标题和图表结尾;进行汇总,对标题进行等级划分,并根据图表标题和图表结尾对图表进行抽取,分别将正文、图表映射到相应的标题和图表标题中,最终生成PDF文件的结构化数据,这样,可以对PDF文件中的标题、正文、图表等进行结构化抽取,进行精细解析和对图表信息的有效抽取,为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持,极大的简化了用户分析研报内容的时间。 | ||
搜索关键词: | 一种 pdf 文件 信息 抽取 方法 装置 | ||
【主权项】:
一种PDF文件的信息抽取方法,其特征在于,包括:针对PDF文件,分别获取所述PDF文件的每一页中的信息,并根据信息的类型,分别将每一页中的信息生成相应的树形结构;针对每一页相应的树形结构,分别统计每一页相应的树形结构中每一个节点的信息,根据每一个节点的信息的位置、高度、宽度,分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾,并根据预设规则,将图标标题和图标结尾进行配对;汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾,根据标题的高度和样式,对标题进行等级划分,并根据配对的图表标题和图表结尾的位置,分别从每一页中识别并抽取图表,以及分别将正文、图表映射到相应的标题和图表标题中,获得PDF文件的汇总结果;根据PDF文件的汇总结果,生成所述PDF文件的结构化数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京因果树网络科技有限公司,未经北京因果树网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710067220.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种涡旋混合器的嵌入模块
- 下一篇:一种用于生产高强灌浆料的卧式混合机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置