[发明专利]一种MapReduce系统中的数据采样和划分方法有效

专利信息
申请号: 201210205841.7 申请日: 2012-06-18
公开(公告)号: CN102799486A 公开(公告)日: 2012-11-28
发明(设计)人: 姚金宇;陈琪;肖臻 申请(专利权)人: 北京大学
主分类号: G06F9/50 分类号: G06F9/50;H04L29/08
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 余长江
地址: 100871 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 mapreduce 系统 中的 数据 采样 划分 方法
【权利要求书】:

1.一种MapReduce系统中的数据采样和划分方法,其步骤包括:

1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;

2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;

3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。

2.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间的划分方法是:

2-1)在合并的样本集合中,筛选出包含二元组最多的样本键值,以此划分初步键值域;

2-2)根据每一个键值区间中其它样本键值的个数,按样本的键值落在每个区间的比例将收集总键值数Ktot和收集总二元组数Rtot分配到每一个区间,得到待计算的二元组在键值域上分布;

2-3)根据所述键域分布,结合节点效率值计算出每一个Reduce任务的工作量,并且按照该工作量对键值域进行区间划分,得到每一个Reduce任务的最终键值区间。

3.如权利要求2所述的MapReduce系统中的数据采样和划分方法,其特征在于,节点效率值根据同一个节点所执行的Map任务的平均时间决定,与样本一同上传给主控节点的还包括,Map任务上传的键值总数KmapID和二元组总数RmapID

4.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,Map采样任务根据对当前Map任务的所有输出<key-value>二元组数量,生成S={<K1,N1>,<K2,N2>,…,<Kn,Nn>}样本集合,其中Ki表示键值,Ni表示包含Ki的二元组数目。

5.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,样本集合由二元组总数最大的样本集合p和抽取概率相同的其他样本q组成,p+q值是用户定制的样本集大小,p∶q值采用系统默认值或由用户根据应用定制。

6.如权利要求5所述的MapReduce系统中的数据采样和划分方法,其特征在于,p∶q值根据查询数据倾斜的强度设定,

6-1)数据倾斜接近设定阀值1时,p:q比值增大,使用出现次数最多的键值对于整个数据分布进行估测;

6-2)数据倾斜接近设定阀值2时,p:q比值减小,按照均匀分布的原则选取样本键值。

7.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述每一个Map上传的样本集是对于键值有序,将两个有序序列进行合并,对于键值相同的样本,将他们的二元组数相加作为新的样本。

8.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述划分键值区间包括粗粒度和细粒度两种划分,所述粗粒度划分包含同一个键值所有二元组在同一个Reduce任务上进行计算;细粒度包含同一个键值的二元组在不同的Reduce任务上进行计算。

9.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,用户配置采样Map任务占总的Map任务的S%,每一个采样Map任务样本集合T,所述参S、T数定制原则是:

9-1)设主控节点上分配用于计算采样和划分的内存空间为M字节,每一个样本记录大小为P字节,总的Map任务数为m,则M≥P*T*(m*S%);

9-2)若输入数据的分布比较离散,每一个Map任务的所处理的数据分布相似,S调节减小;若输入数据的分布比较集中,不同的Map之间处理的数据分布不同,S调节增大。

10.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间划分后,对在区间划分产生之前的Map任务写入本地文件,建立该文件的稀疏索引,对该文件的划分通过在稀疏索引中进行查找,定位到对应的切分点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210205841.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top