[发明专利]ETL任务依赖关系的检测方法、装置及ETL工具有效
申请号: | 201410569204.7 | 申请日: | 2014-10-22 |
公开(公告)号: | CN105589874B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴媛媛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | etl 任务 依赖 关系 检测 方法 装置 工具 | ||
本申请公开了一种ETL任务依赖关系的检测方法和装置,所述方法包括:针对ETL的每一个任务,获取任务包括的数据操作指令;解析数据操作指令,获取任务相关的源表和目标表;根据目标表、任务属性表和任务依赖关系配置表,获取目标表直接依赖的源表和间接依赖的源表;遍历任务相关的源表、直接依赖的源表和间接依赖的源表,采用预设的规则标识与任务相关的各个任务依赖关系的错误类型和可优化类型。采用本申请提供的方法,通过将实际的任务依赖关系和预期的任务依赖关系按预定规则进行比对,自动发现错误和可优化的任务依赖关系,从而减少任务依赖问题导致的故障发生频率,节约测试人员手动排查任务依赖问题的时间,达到提高测试效率的效果。
技术领域
本发明涉及数据仓库技术领域,具体涉及一种ETL任务依赖关系的检测方法和装置。本发明同时涉及一种ETL工具。
背景技术
ETL(Extract-Transform-Load,数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence/Data Warehouse,商业智能/数据仓库)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。在数据仓库的整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%。
ETL发布后,开发人员会配置新发脚本的调度任务,并配置对其他脚本调度任务之间的依赖关系,以保证新脚本发布上线后,可以按预期的频率、规则以及顺序来调度执行。如果任务依赖关系有错误会导致目标数据无法正确生成,如果任务依赖关系待优化,可能会导致调度系统数据冗余及效率低下,并影响其性能,故任务依赖关系正确性是测试人员检查的对象之一。而人工检查任务依赖关系需要在每次ETL项目发布后都花费较多时间和重复体力劳动,且如果是测试人员没有覆盖到的ETL项目,发布后也无法及时跟进排查。
目前,常用的ETL调度工具(例如,Control-M等)可以解析出通过平台配置好的任务依赖关系表,并在界面上以任务树的格式展示出来,方便开发人员排查任务依赖关系有无问题。此外,还有一些现有方案可以通过对ETL任务的数据操作指令按特定的规则进行解析,得出目标表所依赖的全部源表,并为其自动生成任务依赖关系配置。
然而,现有技术存在如下缺点:
1)缺乏基于开发ETL过程代码的自动化多维度分析,即使可以按开发的代码中的源表和目标表自动生成任务依赖关系配置,但是如果开发代码本身就有循环依赖关系、不符合特定数据仓库特定模型分层顺序的依赖关系,也会按开发代码逻辑生成对应的任务依赖关系,而无法自动检测出以上类型的问题。
2)对于多余、重复依赖关系这些基本不做识别,但这类问题虽然不影响ETL调度的正确性,但是多余的依赖关系配置会导致任务执行延迟,而重复依赖关系也会影响ETL调度系统的性能。
3)即使可以实现不同程度的任务依赖检查,但是基本没有融入持续集成的概念。
综上所述,现有技术存在无法自动检测出ETL任务依赖关系中的错误点和可优化点的问题。
发明内容
本发明提供一种ETL任务依赖关系的检测方法和装置,以解决现有技术存在无法自动检测出ETL任务依赖关系中的错误点和可优化点的问题。本发明另外提供一种ETL工具。
本发明提供一种ETL任务依赖关系的检测方法,包括:
针对ETL的每一个任务,获取所述任务包括的数据操作指令;
将所述数据操作指令插入到数据库内部表;
根据所述数据操作指令和任务属性表,生成源表对应关系集合和目标表对应关系集合,将所述源表对应关系集合作为第一源表对应关系集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410569204.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页的页面元素的显示方法和装置
- 下一篇:标题检索器