[发明专利]PDF目录识别方法及电子设备、计算机可读存储介质在审

申请号：	202011504629.1	申请日：	2020-12-18
公开（公告）号：	CN112632968A	公开（公告）日：	2021-04-09
发明（设计）人：	陈健洋	申请（专利权）人：	万兴科技（湖南）有限公司
主分类号：	G06F40/237	分类号：	G06F40/237;G06F40/279;G06F40/151
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	黄广龙
地址：	410205 湖南省长沙市长沙高***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	pdf 目录识别方法电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种PDF目录识别方法及电子设备、计算机可读存储介质，其中PDF目录识别方法包括：获取PDF文档的每个页面的原始文本段落集合；根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；将所述当前文本段落集合转换成至少一个二值化矩阵；扫描每个所述二值化矩阵，得到扫描结果；根据所述扫描结果，确定当前页面为目标目录页面。根据本申请的PDF目录识别方法，能够提取PDF文件中可能包含目录信息的页面，准确识别出目录结构。

技术领域

本申请涉及文档处理技术领域，特别涉及一种PDF目录识别方法及电子设备、计算机可读存储介质。

背景技术

现有对于PDF目录的提取方法是对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾字典；对所述文件尾字典进行分析，得到键值最高权限用户对应的目录簿字典；对所述目录簿字典进行检索，获得所述PDF文档的目录。现有对于PDF目录的提取方法是基于PDF文档中存在目录字典不为空的提取，但是对于大多数PDF文档，目录字典为空，只存在纯粹的目录文本页面。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种PDF目录识别方法，能够提取PDF文件中可能包含目录信息的页面，准确识别出目录结构。

根据本申请第一方面实施例的PDF目录识别方法，包括：

获取PDF文档的每个页面的原始文本段落集合；

根据每一所述原始文本段落集合的数字队列，得到符合目录结构特征的当前文本段落集合；

将所述当前文本段落集合转换成至少一个二值化矩阵；

扫描每个所述二值化矩阵，得到扫描结果；

根据所述扫描结果，确定当前页面为目标目录页面。

根据本申请实施例的PDF目录识别方法，至少具有如下技术效果：提取PDF文件中可能包含目录信息的页面，针对PDF页面中的文本段落进行自定义的目录结构特征识别，通过数字队列与二值化矩阵扫描双重判定，极大提升了处理和辨别效率，能够有效和准确地识别出大部分PDF文件的目录页，尤其是对于纯粹的文本页面的目录结构能够有效与准确的进行识别。

根据本申请的一些实施例，所述获取PDF文档的每个页面的原始文本段落集合包括：

提取所述PDF文档的每个页面的每一行文本作为文本段落；

将同一页面的全部所述文本段落设置为所述原始文本段落集合。

根据本申请的一些实施例，所述获取PDF文档的每个页面的原始文本段落集合还包括：

提取每一所述原始文本段落集合的每一个所述文本段落的结尾项；

去除所述结尾项为非数字的所述文本段落，以更新所述原始文本段落集合。

根据本申请的一些实施例，所述将所述当前文本段落集合转换成至少一个二值化矩阵包括：

将所述当前文本段落集合的每一个所述文本段落进行排序，得到排序后的当前文本段落集合；

将排序后的当前文本段落集合进行分类，得到至少一个子段落集合；

根据每个所述子段落集合，得到至少一个所述二值化矩阵，其中，所述子段落集合与所述二值化矩阵一一对应。

根据本申请的一些实施例，所述将所述当前文本段落集合的每一个所述文本段落进行排序，得到排序后的当前文本段落集合包括：

提取所述当前文本段落集合的每一个所述文本段落的字体大小、字体粗细及文本段落缩进信息；