[发明专利]一种PDF高级元素提取方法及相关装置在审
| 申请号: | 201910127769.2 | 申请日: | 2019-02-18 |
| 公开(公告)号: | CN111582011A | 公开(公告)日: | 2020-08-25 |
| 发明(设计)人: | 敖初杰;夏伦;张果;陶志伟 | 申请(专利权)人: | 浙江核新同花顺网络信息股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
| 地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 pdf 高级 元素 提取 方法 相关 装置 | ||
1.一种PDF高级元素提取方法,其特征在于,包括:
采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;
对所述PDF进行低级元素解析,得到多个低级元素;
根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。
2.根据权利要求1所述的PDF高级元素提取方法,其特征在于,采用目标检测算法对PDF进行区域标注,得到多个初级区域,包括:
对所述PDF进行图片渲染,得到PDF图片;
通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。
3.根据权利要求1所述的PDF高级元素提取方法,其特征在于,所述目标检测算法为DSSD算法或YOLO算法或RetinaNet算法。
4.根据权利要求1所述的PDF高级元素提取方法,其特征在于,根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域,包括:
判断与每个所述初级区域连接的低级元素是否属于该初级区域;
若是,则根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。
5.一种PDF高级元素提取系统,其特征在于,包括:
算法标注模块,用于采用目标检测算法对PDF进行区域标注,得到多个初级区域;
低级元素解析模块,用于对所述PDF进行低级元素解析,得到多个低级元素;
区域范围修正模块,用于根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。
6.根据权利要求5所述的PDF高级元素提取系统,其特征在于,所述算法标注模块,包括:
图片渲染单元,用于对所述PDF进行图片渲染,得到PDF图片;
区域标注单元,用于通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。
7.根据权利要求5所述的PDF高级元素提取系统,其特征在于,所述区域范围修正模块,包括:
低级元素归属判断单元,用于判断与每个所述初级区域连接的低级元素是否属于该初级区域;
范围修改单元,用于当所述低级元素属于该初级区域时,根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。
8.一种PDF高级元素提取装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的PDF高级元素提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的PDF高级元素提取方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江核新同花顺网络信息股份有限公司,未经浙江核新同花顺网络信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910127769.2/1.html,转载请声明来源钻瓜专利网。





