[发明专利]一种用于倾斜数据的流式计算引擎运行方法及系统有效
申请号: | 201911191154.2 | 申请日: | 2019-11-28 |
公开(公告)号: | CN110990059B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 程学旗;李冰;张志斌;郭嘉丰 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 倾斜 数据 计算 引擎 运行 方法 系统 | ||
1.一种用于倾斜数据的流式计算引擎运行方法,其特征在于,包括:
步骤1、获取包含倾斜数据的用户作业,并将该用户作业转换为表示该用户作业的有向无环图,根据该有向无环图中算子的业务处理逻辑,将该有向无环图中节点划分为有状态算子和无状态算子;
步骤2、将全部状态算子包装为有状态任务后输入有状态数据流,将全部无状态算子包装为无状态任务后输入无状态数据流;
步骤3、将该无状态数据流中无状态任务复制发送至任意计算节点,得到无状态处理结果;
步骤4、将该有状态数据流中有状态任务转换为包含键和值的数据记录,将包含相同键的数据记录分配至相同计算节点,得到有状态处理结果,集合该无状态处理结果和有状态处理结果作为该用户作业的运行结果。
2.如权利要求1所述的用于倾斜数据的流式计算引擎运行方法,其特征在于,该步骤4包括:将状态数据流划分为固定数量的数据片,该数据片可被计算节点并行处理,或根据调度器的决策调度至其他计算节点处理。
3.如权利要求1所述的用于倾斜数据的流式计算引擎运行方法,其特征在于,该步骤2中将状态算子包装为有状态任务和将无状态算子包装为无状态任务的过程中均包括使用OP融合规则将相关联的算子合并。
4.如权利要求1所述的用于倾斜数据的流式计算引擎运行方法,其特征在于,该步骤4包括:
步骤41、计算节点每隔固定时间间隔挑选负荷最重的有状态任务,并将其按照如下公式重新分配CPU资源:
其中,pnext代表任务新分配的CPU线程数量,pnow为任务当前线程数量,clast为当前任务上次调度时线程增加数量,Ncpu为CPU核心数量。
5.如权利要求1所述的用于倾斜数据的流式计算引擎运行方法,其特征在于,该步骤4包括:每隔固定时间间隔从负载最高的计算节点选择一个有状态任务迁移至负载最低的计算节点。
6.一种用于倾斜数据的流式计算引擎运行系统,其特征在于,包括:
模块1、获取包含倾斜数据的用户作业,并将该用户作业转换为表示该用户作业的有向无环图,根据该有向无环图中算子的业务处理逻辑,将该有向无环图中节点划分为有状态算子和无状态算子;
模块2、将全部状态算子包装为有状态任务后输入有状态数据流,将全部无状态算子包装为无状态任务后输入无状态数据流;
模块3、将该无状态数据流中无状态任务复制发送至任意计算节点,得到无状态处理结果;
模块4、将该有状态数据流中有状态任务转换为包含键和值的数据记录,将包含相同键的数据记录分配至相同计算节点,得到有状态处理结果,集合该无状态处理结果和有状态处理结果作为该用户作业的运行结果。
7.如权利要求6所述的用于倾斜数据的流式计算引擎运行系统,其特征在于,该模块4包括:将状态数据流划分为固定数量的数据片,该数据片可被计算节点并行处理,或根据调度器的决策调度至其他计算节点处理。
8.如权利要求6所述的用于倾斜数据的流式计算引擎运行系统,其特征在于,该模块2中将状态算子包装为有状态任务和将无状态算子包装为无状态任务的过程中均包括使用OP融合规则将相关联的算子合并。
9.如权利要求6所述的用于倾斜数据的流式计算引擎运行系统,其特征在于,该模块4包括:
模块41、计算节点每隔固定时间间隔挑选负荷最重的有状态任务,并将其按照如下公式重新分配CPU资源:
其中,pnext代表任务新分配的CPU线程数量,pnow为任务当前线程数量,clast为当前任务上次调度时线程增加数量,Ncpu为CPU核心数量。
10.如权利要求6所述的用于倾斜数据的流式计算引擎运行系统,其特征在于,该模块4包括:每隔固定时间间隔从负载最高的计算节点选择一个有状态任务迁移至负载最低的计算节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911191154.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置