[发明专利]一种解决PDF中复杂流程图的自动识别与解析方法在审
| 申请号: | 202110082098.X | 申请日: | 2021-01-21 |
| 公开(公告)号: | CN113343744A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 张贝贝;刘雅雯;郑浩然;郭仲穗;仵晨伟;魏嵬 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 徐瑶 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 解决 pdf 复杂 流程图 自动识别 解析 方法 | ||
1.一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,具体按照以下步骤实施:
步骤1、对初始文档进行处理;
步骤2、基于Faster R-CNN提取图片中所需框图的坐标;
步骤3、根据步骤2获取的坐标与OCR判断实体之间的指向关系;
步骤4、基于复杂网络分析库NetworkX构建指向关系的复杂网络。
2.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤1具体按照以下步骤实施:
将初始PDF文档记为A,筛选条件函数记为L(x),初始文档经过筛选条件函数后剩余所需部分记为B,B=L(A);接着,图片转换函数为H(x),将初始文档经过筛选条件函数,再经过图片转换函数后的图片记为C,C=H(B)。
3.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤2具体为:
步骤2.1、利用卷积层提取图片特征;
步骤2.2、利用RPN网络层得到候选矩阵区域;
步骤2.3、在感兴趣区域池化层将不同大小的输入图像尺寸转换为固定长度的输出收集;
步骤2.4、利用步骤2.3中的特征图PFM计算候选区域的类别归属,同时再次根据边框回归获得流程图中的实体类、百分比类、箭头类检测框最终的精确位置。
4.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤3具体为:
步骤3.1、依据实体类、百分比类预对图片进行覆白预处理;
步骤3.2、对流程指向线段进行细化处理;
步骤3.3、寻找实体之间的指向与被指向关系;
步骤3.4、寻找具有指向关系的对象之间路径上对应的百分比,对路径与其百分比进行绑定。
5.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤4具体为:
步骤4.1、构建一个节点图,建立一个空的图G,基于步骤2中的实体坐标,使其作为节点添加进图G中,构建节点图G1;
步骤4.2、构建有向图,根据步骤3.3.3得到的实体与实体之间指向关系,使其作为方向依次添加进节点图G1中对实体节点进行连接,得到基础的有向图G2;
步骤4.3、构建加权有向图,根据步骤3.4得到与实体之间路径绑定的百分比,将其视为权重,添加进有向图G2中,最终形成控股流程有向加权图G3。
6.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤3.2具体为:
步骤3.2.1、将图像D以线条形式进行分解识别;
步骤3.2.2、将因检测出现问题的线条进行调整;
步骤3.2.3、判断lineij之间关系,更新线段表L0。
7.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤3.3具体为:
步骤3.3.1、将实体坐标与lineij内点进行绑定;
步骤3.3.2、处理线段lineij上的断点问题,对断点进行弥合处理;
步骤3.3.3、依据线段表线段L0,寻找实体之间的指向关系,存储指向路径点坐标。
8.根据权利要求1所述的一种解决PDF中复杂流程图的自动识别与解析方法,其特征在于,所述步骤3.4具体为:
步骤3.4.1、依据路径表L3内存储的点坐标顺序,构建寻找范围,确定路径与其百分比;
步骤3.4.2、依据步骤3.4.1得到的路径与其百分比的多对一绑定进行筛查,去掉多余绑定,直至路径与其百分比为一对一绑定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082098.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种墙面装饰用涂料
- 下一篇:镀铜导体结构及其制造





