[发明专利]一种有效提升分布式运算性能的大数据均衡切片方法有效
申请号: | 201710191494.X | 申请日: | 2017-03-28 |
公开(公告)号: | CN107122242B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 傅玉生;贺俊华;朱虹锦;鲜东 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 杨保刚 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有效 提升 分布式 运算 性能 数据 均衡 切片 方法 | ||
1.一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,包括以下步骤:
S1:将分布式存储的原始数据切片为数据处理节点数量相同的切片,并以键值对的形式标识;
S2:计算切片均衡水平,判断切片能否平衡划分,不能划分时添加扩展键值对 EK 到任一切片;否则直接进行下一步;
S3:判断切片是否满足切片均衡状态,当不满足切片均衡状态时进行下一步,满足均衡状态则跳转至 S7;
S4:对切片进行信息重构;
S5:利用组合贪心算法迭代计算最优切片均衡方案,获得重新分配后的切片结构; S6:依据重新分配后的切片结构,重新对数据进行均衡切片;
S7:获得均衡状态下的切片数据;
所述切片进行信息重构的方法为:
依据均衡状态下单个切片的键值对数量AL 和添加扩展键值对以后的切片的键值对数量对所有切片进行划分:
键值对数量大于 AL 的切片划分为第一切片组 SG1;
键值对数量小于 AL 的切片划分第二切片组 SG2;
键值对数量等于 AL 的切片划分第三切片组 SG0;
所述最优切片均衡方案获得的具体步骤为:
S51:计算第一切片组 SG1 和第二切片组 SG2 内每个切片的平衡区间 BI:
BI=SC'-AL;SC'为切片键值对数量;
S52:依据|BI|由大到小分别对第一切片组 SG1 和第二切片组 SG2 内切片进行排序,|BI|为各切片对应平衡区间绝对值;
S53:从第二切片组 SG2 依序选择切片,将第一切片组 SG1 中|BI|与被选择切片的|BI|最接近的切片中|BI|条键值对分配至被选择切片内;轮询第二切片组 SG2 内所有切片;
S54:重新计算所有切片的平衡区间BI,当Max(|BI|)=Min(|BI|)=AL时,获得重新分配后的切片结构;条件不满足时跳转至S51直至满足条件。
2.根据权利要求 1 所述的一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,所述 S2 中判断切片能否完全平衡划分的方法为:
判断 SC 能否被 N 整除,能整除时切片能平衡划分,否则不能平衡划分; 其中 SC 为键值对总数,N 为数据处理节点数量。
3.根据权利要求2所述的一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,所述添加扩展键值对 EK 的数量为:⌈SC/N⌉×N-SC。
4.根据权利要求 1 所述的一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,所述判断切片能否平衡划分的方法:
通过对集群规模和切片大小的标准分析方法,分析添加扩展键值对后所有切片的均衡水平 BL 和均衡状态下单个切片的键值对数量 AL;
其中,所述切片的均衡水平 BL 为:;
SCn为第 n 个切片的键值对数量,n为切片数量;均衡状态下单个切片的键值对数量:;
BL 值越大,则均衡水平低,BL=0 时表示切片处于均衡状态。
5.根据权利要求 1 所述的一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,所述数据进行均衡切片具体为:利用均衡切片结构,对每个切片包含的键值对重新命名。
6.根据权利要求 3 所述的一种有效提升分布式运算性能的大数据均衡切片方法,其特征在于,所述扩展键值对 EK 可添加到分布式物理存储位置的最后一个切片内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710191494.X/1.html,转载请声明来源钻瓜专利网。