[发明专利]基于动态标记优先值的MapReduce数据本地化方法有效
| 申请号: | 201510585360.7 | 申请日: | 2015-09-14 |
| 公开(公告)号: | CN105224612B | 公开(公告)日: | 2018-12-07 |
| 发明(设计)人: | 杨玉琴;陈麟 | 申请(专利权)人: | 成都信息工程大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 崔建中 |
| 地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供了一种基于动态标记优先值的MapReduce数据本地化方法,包括以下步骤:将各计算节点上的本地化数据块初始化标记值为2n,计算各计算节点本地化数据块的数量;按照各计算节点的数据块数量进行升序排序;依次从数据块数量最少的计算节点开始,将每个计算节点上的数据块的后续备份数据块的标记值减去一个确定的数DecS;优先选择标记值最大的数据块进行调度;任务调度后,再次调整每个计算节点的数据块数量,并进行升序排序,排序后进行标记值调整,最终完成数据处理。本发明通过标记数据块并设置不同优先值,从而提升作业的数据本地化程度,进而提升MapReduce上作业的执行效率和减少作业的带宽占用率。 | ||
| 搜索关键词: | 基于 动态 标记 优先 mapreduce 数据 本地化 方法 | ||
【主权项】:
1.一种基于动态标记优先值的MapReduce数据本地化方法,其特征在于:包括以下步骤;设一个集群中拥有n个计算节点,各计算节点的名称为T1,T2,…,Ti,…,Tn,某个在集群上运行的作业拥有m个数据块且各数据块的名称为B1,B2,…,Bx,…,Bm,数据块默认冗余数为3,则Bx有三个存储的数据块Bx1、Bx2、Bx3;将各计算节点上的本地化数据块初始化标记值为2n,计算各计算节点本地化数据块的数量,不妨设Ti上有本地化数据块CLTi个;按照各计算节点的数据块数量进行升序排序,不妨设一种升序序列为INC1,INC2,…,INCp,…,INCj,…,INCk,…,INCn,其中,位置INCj对应CLTi个数据块,且对应计算节点Ti;依次从INC1对应的计算节点开始,直到INCn对应的计算节点,将每个计算节点上的数据块的后续备份数据块的标记值减去一个确定的数DecS,DecS的值由位置INCj确定,位置INCj对应DecS的值n‑j+1;在任务调度过程中,若调度本地化的数据块,则优先选择标记值最大的数据块,若本地没有数据块,则优先选择本机架位置INC数值高的计算节点上标记值高的数据块进行拷贝;每个数据块得到调度后,再次调整每个计算节点的数据块数量,当某个数据块Bx1被调度后,该数据块及其备份数据块Bx2、Bx3所在的三个计算节点上的数据块数量都减去1,之后进行升序排序,排序后再进行标记值调整;设数据块Bx2对应的计算节点为Ts,在调度数据块Bx2之前,计算节点Ts上的数据块数量为CLTs,对应的位置为INCk,调度之后,Ts对应位置为INCp,4种调整分别为:第一、计算节点Ts上的本地数据块在位置INCp到INCk‑1对应的计算节点的备份数据块的标记值都减去n‑p+1;第二、位置INCp到INCk‑1对应的计算节点上的数据块在计算节点Ts上的标记值都加n‑r+1,r∈[p,k‑1],计算节点Tr是与计算节点Ts上的数据块有相同数据块的计算节点;第三、从位置INCp到INCk‑1对应的计算节点上的数据块的后续备份数据块的标记值都加1;第四、计算节点Ts本地其他数据块对应的在INCk位置之后的计算节点上的数据块的标记值需要再次加上p‑k,p‑k=(n‑k+1)‑(n‑p+1),所述本地其他数据块是节点Ts除去本地数据块Bx2,剩下的CLTs‑1块本地数据块;标记值调整后继续下一次任务调度,任务调度后继续下一次标记值调整,直到所有计算任务全部完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510585360.7/,转载请声明来源钻瓜专利网。





