[发明专利]一种PDF高级元素提取方法及相关装置在审
| 申请号: | 201910127769.2 | 申请日: | 2019-02-18 |
| 公开(公告)号: | CN111582011A | 公开(公告)日: | 2020-08-25 |
| 发明(设计)人: | 敖初杰;夏伦;张果;陶志伟 | 申请(专利权)人: | 浙江核新同花顺网络信息股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
| 地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 pdf 高级 元素 提取 方法 相关 装置 | ||
本申请公开了一种PDF高级元素提取方法,包括:采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;对所述PDF进行低级元素解析,得到多个低级元素;根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。通过目标检测算法对PDF的高级元素进行识别,当PDF的元素更加复杂时可以更加准确的从PDF中分离出高级元素,提高了PDF高级元素识别精度。本申请还公开了一种PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,具有以上有益效果。
技术领域
本申请涉及计算机技术领域,特别涉及一种PDF高级元素提取方法、PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质。
背景技术
在计算机处理数据文档中,常用PDF(Portable Document Format可移植文档格式)作为打印显示的文档格式,PDF文档主要是通过引用、坐标等形式来组织数据。但是PDF文档的数据不是结构化数据,当一些组织通过PDF发布公告数据时,需要获取其中的数据进行PDF高级元素提取,得到结构化数据,以便从公告中读取到公告数据。
现有技术中,对PDF进行高级元素提取处理,得到其中的低级元素,例如单个文字、线条、色块等,通过预先建立的规则将这些低级元素聚合在一起,也就是聚合得到各个结构化数据,例如哪些低级元素构成了文段,哪些低级元素构成了表格,哪些低级元素构成了扇形图。
但是,当PDF内容复杂时,每个PDF中的结构化数据之间的界限并不清楚,通过建立规则的方式会降低聚合的准确率,得不到正确的PDF高级元素提取结果,无法对PDF中的结构化数据进行还原。
因此,如何提高PDF高级元素提取的准确率是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种PDF高级元素提取方法、PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,通过目标检测算法对PDF的高级元素进行识别,当PDF的元素更加复杂时可以更加准确的从PDF中分离出高级元素,提高了PDF高级元素识别精度。
为解决上述技术问题,本申请提供一种PDF高级元素提取方法,包括:
采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;
对所述PDF进行低级元素解析,得到多个低级元素;
根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。
可选的,采用目标检测算法对PDF进行区域标注,得到多个初级区域,包括:
对所述PDF进行图片渲染,得到PDF图片;
通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。
可选的,所述目标检测算法为DSSD算法或YOLO算法或RetinaNet算法。
可选的,根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域,包括:
判断与每个所述初级区域连接的低级元素是否属于该初级区域;
若是,则根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。
本申请还提供一种PDF高级元素提取系统,包括:
算法标注模块,用于采用目标检测算法对PDF进行区域标注,得到多个初级区域;
低级元素解析模块,用于对所述PDF进行低级元素解析,得到多个低级元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江核新同花顺网络信息股份有限公司,未经浙江核新同花顺网络信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910127769.2/2.html,转载请声明来源钻瓜专利网。





