[发明专利]识别PDF文件中文本框的方法、装置及计算机设备及存储介质在审
申请号: | 202110184633.2 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112818894A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 邢振雨 | 申请(专利权)人: | 深圳万兴软件有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 pdf 文件 文本框 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,其中方法包括获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明能够识别并提取PDF文件中的文本框。
技术领域
本发明涉及文档处理技术领域,尤其涉及一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。
背景技术
PDF(Portable Document Format)是一种电子文档格式,是一种较为理想的用于电子阅读的格式。但是PDF文件并不支持编辑,所以大多数时候,需要将DPF文件转换成其它易于编辑的格式的文件,例如Word和PPT。现有的技术手段通常都是直接将PDF文件转换成其它格式的文件,其在转换的过程中无法识别PDF文件中的文本框信息,但是PDF文件是一种板式文件,其主要是由互相独立的文本、图片以及路径等信息组合而成,并不包含文本框信息,而Word和PPT等文件是包含有文本框信息的,因而当将PDF文件转换成其它格式的文件时候,会丢失文本框信息,导致文件显示异常,无法进行编辑。
发明内容
本发明实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,可以识别PDF文件中的文本框,提高使用者的体验。
第一方面,本发明实施例提供了一种识别PDF文件中文本框的方法,该方法具体包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
第二方面,本发明实施例还提供了一种识别PDF文件中文本框的装置,该装置具体包括:第一获取单元,用于获取目标PDF文件,并从所述目标PDF文件中获取目标对象;第一解析单元,用于解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;预处理单元,用于对所述预设图形集合进行处理以获得目标预设图形集合;识别单元,用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳万兴软件有限公司,未经深圳万兴软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110184633.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自助制章机用输送系统
- 下一篇:一种电磁式液位传感器及连铸机