[发明专利]一种PDF文本的处理方法以及装置有效
| 申请号: | 201810701602.8 | 申请日: | 2018-06-29 |
| 公开(公告)号: | CN108897730B | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 王肃;杨耀威;张福刚;夏珺峥 | 申请(专利权)人: | 国信优易数据股份有限公司 |
| 主分类号: | G06F40/166 | 分类号: | G06F40/166 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴迪 |
| 地址: | 100070 北京市丰台区南四环*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 pdf 文本 处理 方法 以及 装置 | ||
本申请提供了一种PDF文本的处理方法以及装置;其中该方法包括:获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。本申请实施例在从PDF文本流中获取原始文本段后,会根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致,从而能够将位置比较混乱的文本的位置调整的较为规则,进而在对PDF文本进行处理后,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
技术领域
本申请涉及数据识别技术领域,具体而言,涉及一种PDF文本的处理方法以及装置。
背景技术
随着互联网技术的持续快速发展,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们掌握的数据在以爆炸性的速度增长,同时,数据的形态也在发生着根本性的变化;怎样能够从庞大数据量中精确快速的获取所需数据成为数据应用的桎梏。
文本搜索即在文本信息中搜索所需要的目标信息,是信息搜索领域一个非常重要的研究方向,它在数据处理方面具有无可替代的地位,其核心就是索引技术。
目前的文本搜索方法主要用于word文档、文本文档的文本搜索,而无法用于对可移植文档格式(Portable Document Format,PDF)文档的文本搜索。
发明内容
有鉴于此,本申请实施例的目的在于提供一种PDF文本的处理方法以及装置,能够对PDF文本进行处理,使得能够基于处理后的PDF文本流对PDF文档的文本搜索。
第一方面,本申请实施例提供了一种可移植文档格式PDF文本的处理方法,包括:
获取PDF文本流中的原始文本段;其中,每个原始文本段具有对应的标注位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,使得原始文本段在文本流中的位置与对应的标注位置信息一致。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述标注位置信息包括:标注行位置信息和标注列位置信息;
根据预设位置调整规则,对原始文本段进行位置调整,包括:
基于标注行位置信息确定行位置之间的距离小于预设距离阈值的第一原始文本段;
将所述第一原始文本段的标注行位置信息调整至一致;
针对行位置相同的原始文本段,确定标注列位置与在文本流中列位置不一致的第二原始文本段;
按照标注列位置调整所述第二原始文本段在文本流中的列位置。
结合第一方面或者结合第一方面的第一种可能的实时方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中:还包括:
为获取的原始文本段生成处理文本段;
其中,所述处理文本段对原始文本段去除大小写区别以及空格;或者所述处理文本段对原始文本段去除大小写区别、空格、以及标点符号。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中:还包括:
将原始文本段、位置调整后的原始文本段标注位置信息、以及原始文本段的所在页信息对应存储;
所述方法,还包括:
接收搜索指令;
根据所述搜索指令中携带的搜索参数,从对应页开始,按照经过位置调整的原始文本段在文本流中的排列顺序,或者按照经过位置调整的原始文本段的标注位置顺序,进行目标字符匹配,并反馈搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据股份有限公司,未经国信优易数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810701602.8/2.html,转载请声明来源钻瓜专利网。





