[发明专利]分布式流水线的数据处理方法、装置及存储介质在审

专利信息
申请号: 202111537765.5 申请日: 2021-12-15
公开(公告)号: CN114428786A 公开(公告)日: 2022-05-03
发明(设计)人: 方祝和;刘奇;黄东旭;崔秋 申请(专利权)人: 平凯星辰(北京)科技有限公司
主分类号: G06F16/24 分类号: G06F16/24;G06N3/02;H03M7/30
代理公司: 北京市立方律师事务所 11330 代理人: 张筱宁
地址: 100192 北京市海淀区西小口路*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 流水线 数据处理 方法 装置 存储 介质
【说明书】:

本申请实施例提供了一种分布式流水线的数据处理方法、装置、电子设备及存储介质,涉及数据库技术领域,适用于MPP数据库中跨节点多任务交换数据场景。该方法包括创建异步执行的数据处理线程以及数据传输线程;通过数据传输线程获得上游任务生成的压缩后数据;通过数据处理线程对上游任务的压缩后数据解压缩并执行当前任务,确定并根据当前的目标压缩算法对当前任务生成的数据进行压缩,将当前任务生成的压缩后数据存放至发送缓冲区;通过数据传输线程向相应的下游任务发送发送缓冲区中的数据。本申请实施例能够充分利用节点的算力并实现生产数据和发送数据的动态平衡,提高整条流水线的吞吐量和资源利用率,减少查询执行耗时。

技术领域

本申请涉及涉及数据库技术领域,具体而言,本申请涉及一种分布式流水线的数据处理方法、装置及存储介质。

背景技术

为了实时分析大数据,挖取大数据的价值,大规模并行处理(Massive ParallelProcessing,简称MPP)数据库系统被广泛应用,例如SparkSQL,Impala,Greenplum等。MPP数据库系统运行于集群之中,一个集群包括多台物理机器,并且通过网络连接。为了充分利用CPU和网络资源来提高性能,很多MPP数据库采用分布式流水线技术来处理任务。这些任务跨网络涉及多台机器合作,上游的子任务每产生一小块数据,就通过网络发到下游的子任务处理,以这种流水线的方式一直处理直到数据源的数据处理完成。分布式流水线技术同时利用CPU和网络,避免物化中间结果,减少任务完成时间。

然而,随着软硬件技术革新,分布式流水线面临大量CPU资源空闲问题。从软件方面来分析,MPP数据库逐渐使用列式执行引擎,即每次处理一列数据的子集,而不是按行处理。这种列式执行引擎可以充分利用CPU缓存,减少缓存未命中(cache misses),同时减少代码解释执行的代价,提高数据处理速度。另一方面,CPU向多核、众核方向发展来提高计算能力。这两个方面共同使得分布式流水线中计算部分的耗时减少数倍。但是,现在数据库集群中广泛应用的是万兆网,它的网络传输数据速度仅有CPU处理数据速度的几十分之一。分布式流水线中上游子任务必须等待网络传输完数据之后才结束,另外下游的子任务也在等待网络传来数据进行处理。上下游子任务在等待网络传输的过程中,CPU资源就只能处于空闲状态,造成浪费。

发明内容

本申请实施例提供一种克服上述问题或者至少部分地解决上述问题的ETA预测、训练、展示方法、装置、电子设备及存储介质。

第一方面,分布式流水线的数据处理方法、装置及存储介质。

第一方面,提供了一种分布式流水线的数据处理方法,包括:

创建异步执行的数据处理线程以及数据传输线程,所述数据处理线程和所述数据传输线程的个数均不止一个;

通过所述数据传输线程获得上游任务生成的压缩后数据;

通过所述数据处理线程对所述上游任务的压缩后数据解压缩并执行当前任务,确定并根据当前的目标压缩算法对所述当前任务生成的数据进行压缩,将所述当前任务生成的压缩后数据存放至发送缓冲区;

通过所述数据传输线程向相应的下游任务发送所述发送缓冲区中的数据。

第二方面,提供了一种数据处理装置,包括:

线程创建模块,用于创建异步执行的数据处理线程以及数据传输线程,所述数据处理线程和所述数据传输线程的个数均不止一个;

第一传输模块,用于通过所述数据传输线程获得上游任务生成的压缩后数据;

数据处理模块,用于通过所述数据处理线程对所述上游任务的压缩后数据解压缩并执行当前任务,确定并根据当前的目标压缩算法对所述当前任务生成的数据进行压缩,将所述当前任务生成的压缩后数据存放至发送缓冲区;

第二传输模块,用于通过所述数据传输线程向相应的下游任务发送所述发送缓冲区中的数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平凯星辰(北京)科技有限公司,未经平凯星辰(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111537765.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top