[发明专利]一种PDF文本的处理方法以及装置有效

申请号：	201810701602.8	申请日：	2018-06-29
公开（公告）号：	CN108897730B	公开（公告）日：	2022-07-29
发明（设计）人：	王肃;杨耀威;张福刚;夏珺峥	申请（专利权）人：	国信优易数据股份有限公司
主分类号：	G06F40/166	分类号：	G06F40/166
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	吴迪
地址：	100070 北京市丰台区南四环***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 pdf 文本处理方法以及装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种PDF文本的处理方法以及装置；其中该方法包括：获取PDF文本流中的原始文本段；其中，每个原始文本段具有对应的标注位置信息；根据预设位置调整规则，对原始文本段进行位置调整，使得原始文本段在文本流中的位置与对应的标注位置信息一致。本申请实施例在从PDF文本流中获取原始文本段后，会根据预设位置调整规则，对原始文本段进行位置调整，使得原始文本段在文本流中的位置与对应的标注位置信息一致，从而能够将位置比较混乱的文本的位置调整的较为规则，进而在对PDF文本进行处理后，使得能够基于处理后的PDF文本流对PDF文档的文本搜索。

技术领域

本申请涉及数据识别技术领域，具体而言，涉及一种PDF文本的处理方法以及装置。

背景技术

随着互联网技术的持续快速发展，数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产要素。人们掌握的数据在以爆炸性的速度增长，同时，数据的形态也在发生着根本性的变化；怎样能够从庞大数据量中精确快速的获取所需数据成为数据应用的桎梏。

文本搜索即在文本信息中搜索所需要的目标信息，是信息搜索领域一个非常重要的研究方向，它在数据处理方面具有无可替代的地位，其核心就是索引技术。

目前的文本搜索方法主要用于word文档、文本文档的文本搜索，而无法用于对可移植文档格式(Portable Document Format，PDF)文档的文本搜索。

发明内容

有鉴于此，本申请实施例的目的在于提供一种PDF文本的处理方法以及装置，能够对PDF文本进行处理，使得能够基于处理后的PDF文本流对PDF文档的文本搜索。

第一方面，本申请实施例提供了一种可移植文档格式PDF文本的处理方法，包括：

获取PDF文本流中的原始文本段；其中，每个原始文本段具有对应的标注位置信息；

根据预设位置调整规则，对原始文本段进行位置调整，使得原始文本段在文本流中的位置与对应的标注位置信息一致。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中：所述标注位置信息包括：标注行位置信息和标注列位置信息；