[发明专利]多源工艺文件结构化解析方法、系统、终端及存储介质有效
申请号: | 202211116718.8 | 申请日: | 2022-09-14 |
公开(公告)号: | CN115390853B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曹岩;王亚南;孙玖利 | 申请(专利权)人: | 北京虎蜥信息技术有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F8/71 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 李传亮 |
地址: | 102200 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 工艺 文件 结构 化解 方法 系统 终端 存储 介质 | ||
1.一种多源工艺文件结构化解析方法,其特征在于,包括:
获取列名信息表,所示列名信息表包括表头名称和所述表头名称所对应的单元格;
提取所述表头名称的坐标点;
根据所述坐标点确定所述表头名称所对应的单元格;
判断每一个单元格是否跨行或者跨列得到基础模板;
判断所述基础模板中的每一个单元格是否存在嵌套表格得到初始模板;
提取所述初始模板的待确认信息,所述待确认信息包括读取数据的顺序和嵌套表格的节点;
根据所述待确认信息得到调整界面并输出;
接收客户端(1)在接收到调整界面后返回的反馈信息;
识别反馈信息中的读取数据的顺序,提取反馈信息中的嵌套表格的节点,使反馈信息中的嵌套表格的节点与初始模板的嵌套表格的节点保持一致,将确认读取数据的顺序和嵌套表格的节点后的初始模板标记为目标模板。
2.根据权利要求1所述的多源工艺文件结构化解析方法,其特征在于,所述根据所述坐标点确定所述表头名称所对应的单元格包括:
判断所述表头名称是否为多个;
若是,则根据多个表头名称的排列方式得到每一个表头名称所对应的单元格;
若否,则列名信息表中的单元格均与表头名称对应。
3.根据权利要求2所述的多源工艺文件结构化解析方法,其特征在于,所述根据多个表头名称的排列方式得到每一个表头名称所对应的单元格包括:
当多个表头名称分布在列名信息表的最高一行时,每一个表头名称所对应的单元格为与表头名称位于同一列的所有单元格;
当多个表头名称分布在列名信息表的最左一列时,每一个表头名称所对应的单元格为与表头名称位于同一行的所有单元格。
4.根据权利要求1所述的多源工艺文件结构化解析方法,其特征在于,所述判断每一个单元格是否跨行或者跨列得到基础模板包括:
提取每一个单元格的线条;
判断提取到的单元格的线条组成的面积与预设的单元面积是否存在两倍或两倍以上的倍数关系;
若是,则根据倍数关系确定跨行个数或者跨列个数,并根据单元格的线条的朝向确定单元格为跨行或者跨列;
将确定单元格朝向和确定跨行个数或者跨列个数的表格结构标记为基础模板。
5.一种多源工艺文件结构化解析系统,其特征在于,包括:
数据获取模块(21),用于获取列名信息表,所示列名信息表包括表头名称和所述表头名称所对应的单元格;
数据处理模块(22),用于提取所述表头名称的坐标点;根据所述坐标点确定所述表头名称所对应的单元格;判断每一个单元格是否跨行或者跨列得到基础模板;判断所述基础模板中的每一个单元格是否存在嵌套表格得到初始模板;提取所述初始模板的待确认信息,所述待确认信息包括读取数据的顺序和嵌套表格的节点;根据所述待确认信息得到调整界面并输出;
数据接收模块(23),用于接收客户端(1)在接收到调整界面后返回的反馈信息;
数据确定模块(24),用于识别反馈信息中的读取数据的顺序,提取反馈信息中的嵌套表格的节点,使反馈信息中的嵌套表格的节点与初始模板的嵌套表格的节点保持一致,将确认读取数据的顺序和嵌套表格的节点后的初始模板标记为目标模板。
6.一种智能终端,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1-4中任一项所述方法的计算机程序指令。
7.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1-4中任一项所述方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京虎蜥信息技术有限公司,未经北京虎蜥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211116718.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:功率可调的发热组件及对应的雾化芯
- 下一篇:一种胸腔镜器械制作性能测试装置