[发明专利]一种基于DAG的面向多计算框架的数据处理方法及系统在审
申请号: | 201710295064.2 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107273193A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 木伟民;张云;李名扬;金宗泽;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dag 面向 计算 框架 数据处理 方法 系统 | ||
1.一种基于DAG的面向多计算框架的数据处理方法,其步骤为:
1)用户根据目标计算场景选取算子,然后对选取的算子的输入输出进行连接并配置相应的参数,得到该目标计算场景;然后向管理器发送保存场景信息的请求;
2)管理器接收该请求,将场景信息保存到场景表中;管理器收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;
3)调度器根据收到的作业生成对应的算子DAG并验证;对于算子DAG验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;
4)执行器对选定的计算框架进行适配,然后将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。
2.如权利要求1所述的方法,其特征在于,所述调度器通过判断算子DAG的数据结构正确性和逻辑正确性验证算子DAG;其中,数据结构正确性即验证算子DAG是否满足有向无环图要求,逻辑正确性即验证算子前后连接和位置的正确性。
3.如权利要求1或2所述的方法,其特征在于,所述调度器将同类算子合并在一起,生成子作业DAG;所述调度器对非同类算子进行切分,生成子作业DAG;其中,每一个子作业DAG中包含一个或多个算子。
4.如权利要求1或2所述的方法,其特征在于,所述执行器根据生成的子作业DAG确定每一执行阶段的方法为:所述执行器对子作业DAG按广度优先的方式进行遍历,将无父节点的节点归并为同一个执行阶段,然后逻辑上删除无父结点且已经归并为同一个执行阶段的节点,对新暴露出来的无父结点且未归并到任何执行阶段中的节点进行归并操作,直至子作业DAG为空,从而确定每一执行阶段,每一个执行阶段中包含一个或多个子作业。
5.如权利要求1所述的方法,其特征在于,所述管理器还保存场景执行后得到的执行实例和针对需按时执行的场景的定时执行信息;每一所述执行实例为一作业;所述作业包括场景信息、场景参数、算子信息、算子参数。
6.一种基于DAG的面向多计算框架的数据处理系统,其特征在于,包括web页面、管理器、调度器和执行器;其中,
web页面,用于为用户提供可视化的图形用户界面,根据目标计算场景选取算子,然后对选取的算子的输入输出进行连接并配置相应的参数,得到该目标计算场景;
管理器,用于保存算子信息、目标计算场景信息、用户信息和向调度器下发作业;
调度器,用于根据收到的作业生成对应的算子DAG并验证;对于算子DAG验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;
执行器,用于对选定的计算框架进行适配,以及将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。
7.如权利要求6所述的系统,其特征在于,所述管理器还保存场景执行后得到的执行实例和针对需按时执行的场景的定时执行信息;每一所述执行实例为一作业;所述作业包括场景信息、场景参数、算子信息、算子参数。
8.如权利要求6所述的系统,其特征在于,所述调度器通过判断算子DAG的数据结构正确性和逻辑正确性验证算子DAG;其中,数据结构正确性即验证算子DAG是否满足有向无环图要求,逻辑正确性即验证算子前后连接和位置的正确性。
9.如权利要求6或7或8所述的系统,其特征在于,所述调度器将同类算子合并在一起,生成子作业DAG;所述调度器对非同类算子进行切分,生成子作业DAG;其中,每一个子作业DAG中包含一个或多个算子。
10.如权利要求6或7或8所述的系统,其特征在于,所述执行器对子作业DAG按广度优先的方式进行遍历,将无父节点的节点归并为同一个执行阶段,然后逻辑上删除无父结点且已经归并为同一个执行阶段的节点,对新暴露出来的无父结点且未归并到任何执行阶段中的节点进行归并操作,直至子作业DAG为空,从而确定每一执行阶段,每一个执行阶段中包含一个或多个子作业。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295064.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品交易的推进方法、服务器及系统
- 下一篇:任务执行方法和终端设备