[发明专利]一种基于MapReduce的最优本地化任务调度方法有效
| 申请号: | 201510002039.1 | 申请日: | 2015-01-04 |
| 公开(公告)号: | CN104461748B | 公开(公告)日: | 2017-06-09 |
| 发明(设计)人: | 高胜立;薛瑞尼;敖立翔;管仲洋 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 电子科技大学专利中心51203 | 代理人: | 李明光 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 mapreduce 最优 本地化 任务 调度 方法 | ||
技术领域
本发明属于计算机技术领域,具体涉及一种基于MapReduce的最优本地化任务调度方法。
背景技术
MapReduce任务调度直接影响MapReduce计算作业的执行时间,高效的调度算法能有效提升作业执行效率。
数据本地化程度直接影响MapReduce作业的执行效率。MapReduce作业主要由Map阶段和Reduce阶段组成,Map阶段计算节点产生的中间输出数据需要经过网络传输到Reduce阶段的计算节点作为其输入数据,这个中间阶段称为Shuffle。Shuffle阶段的数据传输和Reduce阶段的数据持久化存储所带来的网络带宽的资源消耗是不可避免的,在有限的网络带宽资源条件下,如何减少Map阶段不必要的网络带宽占用,成为提升MapReduce作业执行效率的关键。而Map阶段的网络带宽占用和其数据本地化程度直接关联,所以提升数据本地化程度能有效提升MapReduce作业的执行效率。
提升Map阶段数据本地化程度的调度方法多种多样,但都存在一些实用性不高,适用范围不广等问题。Zaharia等人提出一种延迟调度的算法能有效提升数据本地化程度(“Delay scheduling:a simple technique for achieving locality and fairness in cluster scheduling,”in Proceedings of the 5th European conference on Computer systems.ACM,2010,pp.265–278.),但这种延迟调度的方法是建立在损失局部作业的执行效率的基础上的,并且这种调度算法适用性不广,当只有一个或几个作业在运行时,并不能取得最优的数据本地化程度和作业整体执行时间。Xie等人提出一种根据计算节点性能来提前分布数据的方法(“Improving mapreduce performance through data placement in heterogeneous hadoop clusters,”in Parallel&Distributed Processing,Workshops and Phd Forum(IPDPSW),2010IEEE International Symposium on.IEEE,2010,pp.1–9.),这种方法需要预先测量各计算节点的性能,在可以通过调整参数而动态设置计算节点计算资源的MapReduce平台下,这种方法实用性不高。
发明内容
本发明提出一种可以同时工作在同构和异构集群环境下MapReduce任务调度方法,该方法综合考虑集群中各计算节点的处理性能,把计算节点和计算任务抽象为一个二分图,通过扩展该二分图并结合KM带权最优匹配算法形成最终的全局任务调度方案。
本发明具体采用如下技术方案:
一种基于MapReduce的最优本地化任务调度方法,其流程如图1所示,包括以下步骤:
步骤一.模型抽象:
将集群中的物理计算节点抽象为一类点的集合,将集群中准备处理的数据块抽象为另一类点的集合,并构建二分图:由于在任务调度过程中,每个数据块可能被调度到任意一个计算节点,故将每个数据块和每个计算节点连接,若某个物理计算节点上存储有某数据块,则该数据块与该计算节点间的连接线为一条实线,即这种实线连接的数据块所对应的任务为本地化任务,反之,非本地化的数据块与计算节点之间则用虚线连接;对所述连接线赋权值:定义三个权值α、β、γ,满足α<β<γ,本地化任务对应的是用实线连接的数据块和物理节点形成处理关系的一类任务,在所述二分图中这类任务对应的连线的权值为α,非本地化对应的是用虚线连接的数据块和物理节点形成处理关系的一类任务,在图中这类任务对应的连线的权值为β或γ,其中所连接的数据块的物理位置与计算节点的物理位置如果属于计算集群中的相同机架,则虚线权值为β,如果所连接的数据块的物理位置与计算节点的物理位置分别属于计算集群中的不同机架,则虚线权值为γ;由此得抽象后的二分图模型;
步骤二.计算节点初始化:
将集群中各个物理计算节点的计算性能初始化为相同值,即假定每个计算节点单位时间内均能处理相同数量的数据块;
步骤三.第一次模型扩展:
对步骤一所得的二分图模型进行扩展,通过虚拟增加数据块或者镜像计算节点,使扩展后的模型中计算节点数与数据块数相等,从而使扩展后的模型能使用KM带权最优匹配算法;
步骤四.生成第一次调度方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510002039.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据备份处理方法和装置
- 下一篇:工作任务处理方法和工作任务处理装置





