[发明专利]数据分析作业依赖关系生成方法和系统有效
申请号: | 201610860027.7 | 申请日: | 2016-09-28 |
公开(公告)号: | CN107870949B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 曾凡;史晓茸;阮华;何瑞;万志颖;李家昌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/25 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分析 作业 依赖 关系 生成 方法 系统 | ||
一种数据分析作业依赖关系生成方法,包括获取包含数据处理逻辑参数以对源数据库中数据进行处理的作业生成指令,根据所述作业生成指令生成作业;根据所述作业生成指令获取源数据库基本信息;根据所述源数据库基本信息确定所述作业依赖的父结点基本信息及父结点属性;将所述作业的作业基本信息,所述父结点基本信息和所述父结点属性对应存储,生成所述作业的作业依赖关系映射信息。本申请还提供一种数据分析作业依赖关系生成系统。通过每一作业的依赖关系对应一个数据处理逻辑参数对数据转换的完整过程,实现了作业依赖关系的自动化生成与更新,提高了生成效率、降低成本且准确率高。
技术领域
本发明涉及数据分析领域,特别是涉及一种数据分析作业依赖关系生成方法和系统。
背景技术
随着互联网技术的快速发展和云时代的到来,大数据分析能力已经逐渐成为企业的核心竞争力之一。高效的大数据分析架构能够帮助企业更快、更优地配置资源,从而为企业带来巨大的优势。
目前,数据分析架构是底层依赖Hadoop集群进行数据存储与计算,中间层基于Hive进行数据仓库管理,上层为用户提供数据分析作业的提交接口,每个数据分析作业通过提交接口提交。其中,针对大数据分析架构不仅要考虑单个数据分析作业的提交与执行,还需要考虑数据分析作业间的高效协同。
通常,一个复杂的数据分析需求是由数十个甚至成百上千个数据分析作业协同完成的。这些数据分析作业由不同的数据分析工程师编写并提交,彼此之间形成复杂的依赖关系(例如链状、树状或网状关系),根据这些依赖关系,作业调度引擎对这些数据分析作业进行排程,将数据分析作业按照符合依赖关系的次序进行调度执行,以实现整体数据分析需求。已知的数据分析平台,都是将依赖关系的管理交由用户即数据分析工程师负责。数据分析工程师在提交分析作业时,需要配置该数据分析作业所依赖的父作业列表,在更新数据分析作业时,也需要同时更新所配置的父作业列表。然而,该种方式存在以下问题:
1、不同数据分析作业可能由不同的数据分析师编写和提交,一个数据分析工程师的数据分析作业所依赖的父作业可能是其他数据分析工程师提交的,因此在涉及多个数据分析作业依赖关系配置时,需要通过线下沟通等方式与相应的数据分析工程师获取父作业的信息,花费大量的时间,效率低,依赖关系的配置成本高。
2、数据分析作业的依赖关系直接决定了作业的调度次序,一个大型的数据分析需求往往由数十个甚至成百上千个数据分析作业协同完成的,数据分析作业间的依赖关系异常复杂,依赖关系由人工进行配置并维护,不仅成本高,而且出错概率非常大,依赖关系一旦出错,则会导致错误的调度次序,从而产生完全错误的分析结果。
相关技术中,对于上述问题,尚无有效解决方案。
发明内容
基于此,有必要提供一种高效、成本低且准确率高数据分析作业依赖关系生成方法和系统。
一种数据分析作业依赖关系生成方法,包括:
获取包含数据处理逻辑参数以对源数据库中数据进行处理的作业生成指令,根据所述作业生成指令生成作业;
根据所述作业生成指令获取源数据库基本信息;
根据所述源数据库基本信息确定所述作业依赖的父结点基本信息及父结点属性;
将所述作业的作业基本信息,所述父结点基本信息和所述父结点属性对应存储,生成所述作业的作业依赖关系映射信息。
一种数据分析作业依赖关系生成系统,包括:
作业提交模块,用于获取包含数据处理逻辑参数以对源数据库中数据进行处理的作业生成指令,根据所述作业生成指令生成作业;
解析模块,用于根据所述作业生成指令获取源数据库基本信息;
确定模块,用于根据所述源数据库基本信息确定所述作业依赖的父结点基本信息及父结点属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610860027.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种二次络合钙的络合物
- 下一篇:一种对恶意网站进行过滤的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置