[发明专利]识别PDF文件中文本框的方法、装置及计算机设备及存储介质在审

申请号：	202110184633.2	申请日：	2021-02-08
公开（公告）号：	CN112818894A	公开（公告）日：	2021-05-18
发明（设计）人：	邢振雨	申请（专利权）人：	深圳万兴软件有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	深圳市精英专利事务所 44242	代理人：	李翔宇
地址：	518000 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	识别 pdf 文件文本框方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质，其中方法包括获取目标PDF文件，并从所述目标PDF文件中获取目标对象；解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；对所述预设图形集合进行处理以获得目标预设图形集合；解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明能够识别并提取PDF文件中的文本框。

技术领域

本发明涉及文档处理技术领域，尤其涉及一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。

背景技术

PDF(Portable Document Format)是一种电子文档格式，是一种较为理想的用于电子阅读的格式。但是PDF文件并不支持编辑，所以大多数时候，需要将DPF文件转换成其它易于编辑的格式的文件，例如Word和PPT。现有的技术手段通常都是直接将PDF文件转换成其它格式的文件，其在转换的过程中无法识别PDF文件中的文本框信息，但是PDF文件是一种板式文件，其主要是由互相独立的文本、图片以及路径等信息组合而成，并不包含文本框信息，而Word和PPT等文件是包含有文本框信息的，因而当将PDF文件转换成其它格式的文件时候，会丢失文本框信息，导致文件显示异常，无法进行编辑。

发明内容

本发明实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质，可以识别PDF文件中的文本框，提高使用者的体验。

第一方面，本发明实施例提供了一种识别PDF文件中文本框的方法，该方法具体包括：获取目标PDF文件，并从所述目标PDF文件中获取目标对象；解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；对所述预设图形集合进行处理以获得目标预设图形集合；解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。

第二方面，本发明实施例还提供了一种识别PDF文件中文本框的装置，该装置具体包括：第一获取单元，用于获取目标PDF文件，并从所述目标PDF文件中获取目标对象；第一解析单元，用于解析所述目标对象以获取所述目标对象的形状，并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中，其中，所述预设图形集合包括多个对应不同形状的子集合；预处理单元，用于对所述预设图形集合进行处理以获得目标预设图形集合；识别单元，用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳万兴软件有限公司，未经深圳万兴软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110184633.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]识别PDF文件中文本框的方法、装置及计算机设备及存储介质在审

专利文献下载