[发明专利]基于数据仓库的数据血缘关系处理方法及装置在审
| 申请号: | 202210085894.3 | 申请日: | 2022-01-25 |
| 公开(公告)号: | CN114416848A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 白迪 | 申请(专利权)人: | 建信融通有限责任公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 100055 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 数据仓库 数据 血缘关系 处理 方法 装置 | ||
1.一种基于数据仓库的数据血缘关系处理方法,其特征在于,包括:
获取数据仓库中所包含的工作集以及ETL任务;
利用预设的正则表达式,从所述工作集的字符信息中获取得到各个所述工作集之间的包含关系,以及所述工作集和所述ETL任务之间的包含关系;
对所述工作集的字符信息进行解析,得到各个所述ETL任务之间的依赖关系;
对所述ETL任务进行解析,得到所述ETL任务所包含的各个组件;
对每个所述组件进行解析,得到每个所述组件中所包含的各个库表、各个所述库表之间的依赖关系、各个字段、各个所述字段之间的依赖关系;
基于每个所述组件所包含的各个所述库表之间的依赖关系,构建所述数据仓库中各个所述库表之间的依赖关系;
基于每个所述组件所包含的各个所述字段之间的依赖关系,构建所述数据仓库中各个所述字段之间的依赖关系;
基于所述ETL任务中所包含的各个所述库表,生成所述ETL任务和所述库表之间的包含关系;
获取每个所述库表所包含的字段,并基于每个所述库表所包含的字段,生成所述库表和所述字段之间的包含关系;
获取各个所述库表的有效词语集合,并基于各个所述库表的有效词语集合,确定各个所述库表之间的语义近似关系。
2.根据权利要求1所述的方法,其特征在于,所述获取数据仓库中所包含的工作集以及ETL任务,包括:
从预先构建的第三信息表中获取数据仓库中所包含的工作集以及ETL任务;
其中,所述第三信息表的构建过程包括:获取所述数据仓库的各个项目文件;将各个所述项目文件中文件后缀名为.kjb的项目文件,标识为所述工作集,以及将文件后缀名为.ktr的项目文件,标识为所述ETL任务;基于各个所述工作集以及所述ETL任务,构建所述第三信息表。
3.根据权利要求1所述的方法,其特征在于,所述利用预设的正则表达式,从所述工作集的字符信息中获取得到各个所述工作集之间的包含关系,以及所述工作集和所述ETL任务之间的包含关系,包括:
从所述工作集的字符信息中,获取与第一正则表达式匹配的字符串;
从与所述第一正则表达式匹配的字符串中,获取与第二正则表达式匹配的字符串;
从工作集的字符信息中,获取与第三正则表达式匹配的字符串;
从与所述第二正则表达式匹配的字符串中,获取与第四正则表达式匹配的字符串,并从与所述第四正则表达式匹配的字符串中,解析得到所述工作集所包含的其他工作集;
从与所述第三正则表达式匹配的字符串中,获取与第五正则表达式匹配的字符串,并从与所述第五正则表达式匹配的字符串中,解析得到所述工作集所包含的ETL任务;
基于每个所述工作集所包含的其他工作集,生成各个所述工作集之间的包含关系;
基于每个所述工作集所包含的ETL任务,生成所述工作集和所述ETL任务之间的包含关系。
4.根据权利要求1所述的方法,其特征在于,所述对所述工作集的字符信息进行解析,得到各个所述ETL任务之间的依赖关系,包括:
从所述工作集的字符信息中,获取与第一关键字匹配的字符串;
从与所述第一关键字匹配的字符串中,获取与第二关键字匹配的字符串;
从与所述第二关键字匹配的字符串中,解析得到源任务的名称,以及依赖于所述源任务的目标任务的名称;
从所述工作集的字符信息中,获取与第三关键字匹配的字符串;
从与所述第三关键字匹配的字符串中,解析得到各个文件路径;
从各个所述文件路径中获取包含有所述源任务的名称的文件路径,以及包含有所述目标任务的名称的文件路径;
根据包含有所述源任务的名称的文件路径,查询得到与所述源任务对应的ETL任务;
根据包含有所述目标任务的名称的文件路径,查询得到与所述目标任务对应的ETL任务;
基于所述源任务和所述目标任务之间的依赖关系、与所述源任务对应的ETL任务、与所述目标任务对应的ETL任务,生成各个ETL任务之间的依赖关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信融通有限责任公司,未经建信融通有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210085894.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





