[发明专利]一种ETL任务中指标变更的检测方法和装置有效
申请号: | 201410784619.6 | 申请日: | 2014-12-16 |
公开(公告)号: | CN105760383B | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 吴媛媛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 etl 任务 指标 变更 检测 方法 装置 | ||
本申请公开了一种ETL任务中指标变更的检测方法和装置。其中所述ETL任务中指标变更的检测方法,通过使用事先备份好的数据初始化ETL任务的源表数据,执行变更前的ETL任务和变更后的ETL任务,获取变更前目标表集合和变更后目标表集合相应的数据;并比较变更前目标表集合和变更后目标表集合的共有目标表下同名指标的数据,发现目标表的指标变更以及具体的变更详情。采用本申请提供的方法,当检测到目标表指标变更时,开发人员若想进一步排查指标变更原因,可以不用考虑源数据不一致的问题,直接就可以判断是ETL代码变更导致的,并且能够获取指标变更的具体详情。
技术领域
本申请涉及数据仓库技术领域,具体涉及一种ETL任务中指标变更的检测方法和装置。
背景技术
ETL(Extract-Transform-Load,数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence/Data Warehouse,商业智能/数据仓库)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。在数据仓库的整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%。
数据仓库ETL过程中,当ETL代码变更时,ETL开发人员需要查明指标变更原因,以便于为后续的ETL工作提供有价值的参考。
一种常用的ETL指标变更的检测方法是通过记录目标表数据初始状态和结束状态,直接监控这两个状态下目标表指标数据的变化情况,从而查明指标变更的原因。该方法既没有通过某种方式保证ETL代码固定,也没有通过某种方式保证源数据固定。在这种情况下,被检测出发生指标变更的目标表数据,导致其发生指标变更的原因包括两种:既可能是因为源数据随着互联网实际行为变化真的发生了变更导致的,也可能是开发人员修改了ETL数据处理代码导致的。因此,即使发现目标表发生指标变更,开发人员仍无法判断指标变更的具体原因。
综上所述,现有技术存在无法准确判断ETL指标变更原因是ETL代码变更还是源数据变更的问题。
发明内容
本申请提供一种ETL任务中指标变更的检测方法和装置,以解决现有技术存在无法准确判断ETL指标变更原因是ETL代码变更还是源数据变更的问题。
本申请提供一种ETL任务中指标变更的检测方法,包括:
获取变更前的ETL任务和变更后的ETL任务;
解析所述变更前的ETL任务和变更后的ETL任务,生成变更前目标表集合和变更后目标表集合,以及变更前后的所有源表集合,并根据其各自的建表指令进行建表;
针对每个源表,按照事先备份好的数据进行初始化;
以上述初始化后的源表为数据来源,分别执行所述变更前的ETL任务的数据操作指令和变更后的ETL任务的数据操作指令,在变更前目标表集合和变更后目标表集合中,分别获得相应的数据;
比较所述变更前目标表集合和变更后目标表集合的共有目标表下同名指标的数据,判断数据是否发生变化,若是,则判断指标发生变更并作出指标变更标识。
可选的,所述判断数据是否发生变化,具体是:
判断相同目标表中同名指标下的数据量是否发生变化,若是,则对该同名指标作出“数据量发生变化”的标识。
可选的,所述判断相同目标表中同名指标下的数据量是否发生变化的步骤中,若判断结果为否,则:
以所述相同目标表中的变化前目标表为主表,选择一个具有主键性质的公共指标作为关联字段;
通过所述关联字段,将所述变化前目标表与相同目标表中的变化后目标表相关联,比较所述同名指标下的数据值是否发生变化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410784619.6/2.html,转载请声明来源钻瓜专利网。