[发明专利]一种有效提升分布式运算性能的大数据均衡切片方法有效
申请号: | 201710191494.X | 申请日: | 2017-03-28 |
公开(公告)号: | CN107122242B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 傅玉生;贺俊华;朱虹锦;鲜东 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 杨保刚 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有效 提升 分布式 运算 性能 数据 均衡 切片 方法 | ||
本发明提供了一种有效提升分布式运算性能的大数据均衡切片方法,属于大数据分布式运算保护领域。根据分布式运算环境下的集群规模,通过合理地构建分布式运算在数据预处理阶段的数据切片机制,并利用组合贪心算法来均衡数据切片的大小,有效解决大数据键值对分布不均衡导致的数据切片倾斜问题,并提出全局最优的数据均衡切片方法。通过实施该方法,可以保证数据分片的均衡性,使分布式运算整体性能得到有效提升。
技术领域
本发明涉及大数据分布式运算技术,特别是一种有效提升分布式运算性能的大数据均衡切片方法。
背景技术
随着信息技术的飞速发展,信息系统产生的数据量越来越大,而单机系统在大数据处理过程中的处理能力成为巨大的瓶颈。分布式系统以集群技术和大数据技术为基础,利用高性能的分布式运算,为处理海量的数据,提取数据中的有用信息提供底层技术支持。
分布式运算的基础是分布式存储的原始数据,而这些原始的数据存储结构一般是按照键值对(Key-Value)的方式设计的。在数据开始运算前,就需要把原始的数据进行合理的切片(slice),切割成与集群数量相关的分片数,然后把这些分片分发给数据处理节点,按照分布式运算的流程进行计算,再汇总(collect)到数据管理节点,合并后输出运算的结果。
在整个分布式运算过程中,最重要的就是如何切片可以保证全局运算时间最优化。目前主流的技术是根据Key的分类和集群数量进行划分,但这种数据切片方法在遇到key的分布不均衡时,会导致严重的数据切片倾斜(Data Slice Skew)。发生数据切片倾斜后,某个数据处理节点会分配明显高于平均水平(Average Level)的数据处理量,导致全局的数据处理性能急剧下降。
发明内容
本发明的目的在于:针对分布式数据处理过程中数据切片倾斜导致的局部数据处理量过大,导致全局的数据处理性能低下的问题,提供一种有效提升分布式运算性能的大数据均衡切片方法。
本发明采用的技术方案如下:
一种有效提升分布式运算性能的大数据均衡切片方法,包括以下步骤:
S1:将分布式存储的原始数据切片为数据处理节点数量相同的切片,并以键值对的形式标识;
S2:计算切片均衡水平,判断切片能否平衡划分,不能划分时添加扩展键值对EK到任一切片;否则直接进行下一步;
S3:判断添加扩展键值对的切片是否满足切片均衡状态,当不满足切片均衡状态时进行下一步,满足均衡状态则跳转至S7;
S4:对切片进行信息重构;
S5:利用组合贪心算法迭代计算最优切片均衡方案,获得重新分配后的切片结构;
S6:依据重新分配后的切片结构,重新对数据进行均衡切片;
S7:获得均衡状态下的切片数据。
进一步的,所述步骤S2中判断切片能否完全平衡划分的方法为:
判断SC能否被N整除,能整除时切片能平衡划分,否则不能平衡划分;
其中SC为键值对总数,N为数据处理节点数量。
进一步的,所述添加扩展键值对EK的数量为:
进一步的,所述判断切片均衡水平方法为:
通过对集群规模和切片大小的标准分析方法,分析添加扩展键值对后所有切片的均衡水平BL和均衡状态下单个切片的键值对数量AL;
其中,所述切片的均衡水平BL为:
SCn为第n个切片的键值对数量,n为切片数量;均衡状态下单个切片的键值对数量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710191494.X/2.html,转载请声明来源钻瓜专利网。