[发明专利]一种基于MapReduce的数据处理方法、装置、设备及介质在审
申请号: | 201911337908.0 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111104225A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 王吉伟;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 巴翠昆 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 数据处理 方法 装置 设备 介质 | ||
本申请公开了一种基于MapReduce的数据处理方法、装置、设备及介质,包括:对待处理数据进行抽样,得到样本数据;利用所述样本数据中key的频次以及Reduce节点的数量确定出目标均值;利用所述目标均值、所述key的频次以及所述Reduce节点的当前负载确定出所述key与所述Reduce节点的分配对应关系;利用所述分配对应关系将所述key对应的所述待处理数据分配至对应的所述Reduce节点,以便所述Reduce节点进行相应的数据处理。这样,利用抽样数据中的key的频次与对应的Reduce节点建立分配对应关系,然后利用所述分配对应关系将key对应的待处理数据分配至对应的Reduce节点,能够降低数据倾斜程度,从而提升数据处理效率。
技术领域
本申请涉及数据处理技术领域,特别涉及一种基于MapReduce的数据处理方法、装置、设备及介质。
背景技术
MapReduce是目前广泛应用的并行计算框架,是Hadoop平台的重要组成部分。MapReduce框架主要包括Map和Reduce函数,Map函数输出key-value键值对作为Reduce函数的输入。由于输入数据的动态性,key通常存在不均衡性,直接导致了Reduce处理数据量存在不均衡性。
MapReduce默认的划分数据方法是hash算法,根据处理数据的key分片至Reduce节点,具体的,key采用字符哈希算法(BKDR算法)确定其待分配的Reduce节点,这样,key分配到Reduce节点完全取决于hash值,会存在数据倾斜情况,比如多个key的hashcode与Reduce节点数取模之后可能具有相同的值,从而使数据集中划分到同一个Reduce节点,或者存在某些key频次过大,也会存在类似情况。
发明内容
有鉴于此,本申请的目的在于提供一种基于MapReduce的数据处理方法、装置、设备及介质,能够降低数据倾斜程度,从而提升数据处理效率。其具体方案如下:
第一方面,本申请公开了一种基于MapReduce的数据处理方法,包括:
对待处理数据进行抽样,得到样本数据;
利用所述样本数据中key的频次以及Reduce节点的数量确定出目标均值;
利用所述目标均值、所述key的频次以及所述Reduce节点的当前负载确定出所述key与所述Reduce节点的分配对应关系;
利用所述分配对应关系将所述key对应的所述待处理数据分配至对应的所述Reduce节点,以便所述Reduce节点进行相应的数据处理。
可选的,所述对待处理数据进行抽样,得到样本数据,包括:
对待处理数据进行等距抽样,得到样本数据。
可选的,所述对待处理数据进行抽样,得到样本数据,包括:
对待处理数据进行map处理;
对map处理后的所述待处理数据进行抽样,得到所述样本数据。
可选的,所述利用所述样本数据中key的频次以及Reduce节点的数量确定出目标均值,包括:
确定所述样本数据中全部key对应的频次和;
利用所述频次和以及Reduce节点的数量确定出目标均值。
可选的,所述利用所述目标均值、所述key的频次以及所述Reduce节点的当前负载确定出所述key与所述Reduce节点的分配对应关系,包括:
将所述样本数据中的key按照频次从小到大排序存放进队列;
步骤A:启动对所述队列的第一次遍历;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911337908.0/2.html,转载请声明来源钻瓜专利网。