[发明专利]一种MapReduce系统中的数据采样和划分方法有效
申请号: | 201210205841.7 | 申请日: | 2012-06-18 |
公开(公告)号: | CN102799486A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 姚金宇;陈琪;肖臻 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;H04L29/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 系统 中的 数据 采样 划分 方法 | ||
1.一种MapReduce系统中的数据采样和划分方法,其步骤包括:
1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;
2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;
3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。
2.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间的划分方法是:
2-1)在合并的样本集合中,筛选出包含二元组最多的样本键值,以此划分初步键值域;
2-2)根据每一个键值区间中其它样本键值的个数,按样本的键值落在每个区间的比例将收集总键值数Ktot和收集总二元组数Rtot分配到每一个区间,得到待计算的二元组在键值域上分布;
2-3)根据所述键域分布,结合节点效率值计算出每一个Reduce任务的工作量,并且按照该工作量对键值域进行区间划分,得到每一个Reduce任务的最终键值区间。
3.如权利要求2所述的MapReduce系统中的数据采样和划分方法,其特征在于,节点效率值根据同一个节点所执行的Map任务的平均时间决定,与样本一同上传给主控节点的还包括,Map任务上传的键值总数KmapID和二元组总数RmapID。
4.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,Map采样任务根据对当前Map任务的所有输出<key-value>二元组数量,生成S={<K1,N1>,<K2,N2>,…,<Kn,Nn>}样本集合,其中Ki表示键值,Ni表示包含Ki的二元组数目。
5.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,样本集合由二元组总数最大的样本集合p和抽取概率相同的其他样本q组成,p+q值是用户定制的样本集大小,p∶q值采用系统默认值或由用户根据应用定制。
6.如权利要求5所述的MapReduce系统中的数据采样和划分方法,其特征在于,p∶q值根据查询数据倾斜的强度设定,
6-1)数据倾斜接近设定阀值1时,p:q比值增大,使用出现次数最多的键值对于整个数据分布进行估测;
6-2)数据倾斜接近设定阀值2时,p:q比值减小,按照均匀分布的原则选取样本键值。
7.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述每一个Map上传的样本集是对于键值有序,将两个有序序列进行合并,对于键值相同的样本,将他们的二元组数相加作为新的样本。
8.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述划分键值区间包括粗粒度和细粒度两种划分,所述粗粒度划分包含同一个键值所有二元组在同一个Reduce任务上进行计算;细粒度包含同一个键值的二元组在不同的Reduce任务上进行计算。
9.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,用户配置采样Map任务占总的Map任务的S%,每一个采样Map任务样本集合T,所述参S、T数定制原则是:
9-1)设主控节点上分配用于计算采样和划分的内存空间为M字节,每一个样本记录大小为P字节,总的Map任务数为m,则M≥P*T*(m*S%);
9-2)若输入数据的分布比较离散,每一个Map任务的所处理的数据分布相似,S调节减小;若输入数据的分布比较集中,不同的Map之间处理的数据分布不同,S调节增大。
10.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间划分后,对在区间划分产生之前的Map任务写入本地文件,建立该文件的稀疏索引,对该文件的划分通过在稀疏索引中进行查找,定位到对应的切分点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210205841.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置