[发明专利]MapReduce系统中的Map任务调度方法、设备及系统有效
申请号: | 200810247307.6 | 申请日: | 2008-12-29 |
公开(公告)号: | CN101770402A | 公开(公告)日: | 2010-07-07 |
发明(设计)人: | 郭磊涛;罗治国;徐萌 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 魏杉 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | mapreduce 系统 中的 map 任务 调度 方法 设备 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及MapReduce系统中的Map任务调 度方法、设备及系统。
背景技术
MapReduce是由Google公司发明,近些年新兴的并行编程模式。它将并 行化、容错、数据分布、负载均衡等放在一个库里,将系统对数据的所有操作 都归结为两个步骤:Map(映射)阶段和Reduce(化简)阶段,使那些没有多 少并行计算经验的开发人员也可以开发并行应用,以进行对海量数据的并行处 理。
在Map阶段,Map任务读取一个输入(key1,value1)对,由程序员定义 的Map函数对其处理产生一个中间(key2,value2)结果集,并保存在本地。 在Reduce阶段,Reduce任务从所有执行Map任务的节点读取中间关键字key2 和相关的一个value2集,由程序员定义的Reduce函数对其进行处理,并得到 计算结果。
程序员向MapReduce提交的并行处理作业程序中只需定义Map函数和 Reduce函数,MapReduce系统即可以根据输入数据的大小以及作业的配置等 信息,自动将该作业初始化为多个相同的Map任务和Reduce任务、分别读取 不同的输入数据块并调用Map函数和Reduce函数进行处理。在同一个 MapReduce并行处理作业中,所有自动生成的Map任务和Reduce任务都是相 同的,只是其处理的输入数据不同。
如图1所示,MapReduce系统主要包括如下三个模块:
客户端(client):将用户撰写的并行处理作业提交至主节点(master),通 过主节点监控作业状态和执行结果。
主节点:管理所有的工作节点(worker),并自动将用户作业分解为Map 任务和Reduce任务,将任务调度到工作节点。
工作节点:用于向主节点请求执行任务,同时多个工作节点组成的分布式 文件系统用于存储MapReduce的输入/输出数据。
MapReduce的作业执行流程为:
1、首先,将输入数据(待处理的数据)上传到分布式文件系统中,且数 据会保存多个副本,以提高数据的可靠性。
2、Client将输入数据划分为M个逻辑分片,即(文件名,文件内起始位 置,分片偏移量)的三元组,并将分片信息记录在作业配置信息中。然后,Client 将作业提交到master。由于输入可能会保存多个副本,因此一个逻辑分片可能 会对应多份物理数据。
3、Master根据逻辑分片的个数(M个),将作业初始化为M个Map任务 (每个Map任务处理一个逻辑分片的数据)和R个Reduce任务,并等待workers 请求任务。
4、当worker请求执行任务时,由于Reduce任务需要读取所有Map任务 的输出结果,因此master优先调度执行Map任务。当没有合适的Map任务可 以调度给该worker时,则将Reduce任务调度给该worker。
5、一个被分配了Map任务的worker处理一个逻辑分片对应的数据,其从 分布式文件系统中保存有物理数据的worker节点获取输入数据,调用Map函 数进行处理,并将输出结果保存在本地。
6、当worker被分配了Reduce任务时,则worker从所有执行Map任务的 worker读取中间结果,调用Reduce函数进行处理,并输出处理结果。
下面详细介绍现有技术的MapReduce的任务调度策略。
由于所有Reduce任务均需要读取所有Map任务的输出,将Reduce任务 调度给集群中的任何节点,其网络开销相对不变。因此,本文主要关注Map 任务的调度策略。
Master主要保存以下几个与Map任务调度相关的主要数据结构:
1、待执行任务列表:保存尚未调度的可执行的Map任务。
2、正在运行任务列表:保存正在运行的Map任务。该列表主要用于进行 瓶颈任务的冗余调度。当任务的执行进度落后于平均进度一定阈值时,则将该 任务再次调度给多个worker冗余执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810247307.6/2.html,转载请声明来源钻瓜专利网。