[发明专利]一种数据处理方法及装置有效

专利信息
申请号: 201711455415.8 申请日: 2017-12-28
公开(公告)号: CN108255619B 公开(公告)日: 2019-09-17
发明(设计)人: 赵英超 申请(专利权)人: 新华三大数据技术有限公司
主分类号: G06F9/54 分类号: G06F9/54;G06F9/50
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 林祥
地址: 450000 河南省郑州市高新技*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 共享内存 数据处理 分配 发送资源分配 资源分配请求 初始化数据 处理性能 任务执行 数据保存 性能瓶颈 硬件配置 集群 服务器 保存 监控 响应 应用
【说明书】:

发明提供一种数据处理方法及装置,所述方法包括:启动完成后,根据共享内存层中保存的Spark Context初始化数据向资源管理者RM发送资源分配请求;接收所述RM响应所述资源分配请求分配的容器,并分别指示各容器所属节点的节点管理者NM在所分配的容器中启动执行器;为各执行器分配任务,并对所述执行器中执行的任务进行监控,将任务执行得到的数据保存至所述共享内存层。应用本发明可以提高Spark on YARN集群的处理性能,避免性能瓶颈的产生,降低对运行Spark Driver的服务器的硬件配置的需求。

技术领域

本发明涉及大数据技术领域,尤其涉及一种数据处理方法及装置。

背景技术

Spark是一种基于内存并行计算框架的分布式批处理系统和分析挖掘引擎,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。

Spark应用程序(Application)运行在Spark Driver(驱动)上。Spark Drive启动时,会创建Spark Context(上下文),并配置Spark Context,进而初始化Spark Context。

完成Spark Context初始化后,Spark Drive会将应用程序转化为task,并向cluster manager(集群管理者)(如YARN(Yet Another Resource Negotiator,另一种资源协调者))申请资源运行Executor(执行者),按照预设策略将task分配给各Executor执行。其中,各Executor均会向Spark Drive注册,进而Spark Drive可以监控Executor中task的执行情况。

目前,以YRAN作为cluster manager运行的Spark(可以称为Spark On Yarn)主要包括YARN-Client(客户端)和YARN-Cluster两种模式。

YARN-cluster模式下作业执行流程:

1、Spark client(或称为Spark YARN client)向Resource Manager(资源管理者,简称RM)提交应用程序;

2、RM收到应用程序后,在集群中选择一个Node Manager(节点管理者,简称NM),为该应用程序分配一个Container(容器),要求NM在这个Container中启动应用程序的Application Master(AM);

3、NM接收到RM的分配指令,在指定的Container中启动AM;AM启动后,会启动SparkDriver;

4、Spark Driver启动时,会进行Spark Context的初始化;

5、Spark Driver向RM注册,并采用轮询的方式通过RPC(Remote Procedure Call,远程过程调用)协议为各个task申请资源(Container);

6、Spark Driver申请到资源(即Container)后,在对应的Container中启动Executor;其中,Executor启动后,可以向Spark Driver注册;

7、Spark Driver分配task给Executor执行;Executor运行task,并向SparkDriver汇报运行的状态和进度;

8、应用程序运行完成后,AM向RM申请注销并关闭。

然而实现发现,在现有YARN-cluster实现方案中,仅有一个Spark Driver处于工作状态,导致Spark On YARN集群处理性能较低,容易出现性能瓶颈。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711455415.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top