[发明专利]一种数据处理方法及装置有效
申请号: | 201410640319.0 | 申请日: | 2014-11-13 |
公开(公告)号: | CN105653534B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 陈维锋 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明涉及一种数据处理方法,包括以下步骤:接收映射/化简计算请求,获取基于键值对的待处理数据,该待处理数据中键的数据类型为整数;调用映射器对该待处理数据进行映射处理,得到中间结果数据;根据该中间结果数据中各键值对的键以及化简器的预设数量调用相应的化简器对该中间结果数据进行化简处理,得到最终结果数据;及输出该最终结果数据。本发明还提供一种数据处理装置。利用本发明可以降低数据处理时算法的复杂度,提高使用映射/化简模型处理数据时整体流程的运行效率。
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于分布式计算的数据处理方法及装置。
背景技术
随着计算机技术的发展,计算机需要处理的数据量也越来越大,单台计算机已经无法负载一些大规模数据的处理,例如从网络社交平台的海量用户中搜索出符合要求的用户。因此,通常需要将多台计算机联合起来,构成计算机群,并行处理大规模的数据。为了可以将多台计算机联合起来并行处理大规模数据,一种可以用于并行处理大规模数据的模型—映射/化简(Map/Reduce)模型应运而生。
映射/化简模型对数据的处理通常包括映射(map)阶段和化简(reduce)阶段,其中映射阶段用于通过多个映射器(即mapper,是在映射/化简模型中用于实现映射处理的用户应用程序)从多个输入路径读取基于键值对的待处理数据,并对该待处理数据进行数据分拣和分堆处理,生成同样基于键值对的中间结果数据,而化简阶段则用于通过多个化简器(即reducer,是在映射/化简模型中用于实现化简处理的用户应用程序)将该中间结果数据汇总成最终结果数据,并通过多个输出路径输出该最终结果数据。
然而,现有的采用上述映射/化简模型进行数据处理的方法通常具有算法复杂,整体流程的运行效率较低等缺陷。例如,采用上述映射/化简模型进行数据处理时,在所述化简阶段需要指定多个化简器来汇总该中间结果数据,其中每个化简器用于处理该中间结果数据中的一部分数据。这就涉及到如何将该中间结果数据划分给该多个化简器处理的问题。现有的将中间结果数据划分给不同化简器进行处理的方法通常是根据中间结果数据中各键值对中的键来划分,将所含键相同的键值对交由同一个化简器来处理。这种划分方式的算法复杂度较高,并且每个化简器所处理的键值对数量可能有较大差异,使每个化简器的工作量不平均,从而可能造成化简阶段对中间结果数据的处理效率较低,导致映射/化简模型整体流程的运行效率较低。
发明内容
有鉴于此,有必要提供一种数据处理方法及装置,可以降低数据处理时算法的复杂度,提高使用映射/化简模型处理数据时整体流程的运行效率。
一种数据处理方法,包括以下步骤:接收映射/化简计算请求,获取基于键值对的待处理数据,该待处理数据中键的数据类型为整数;调用映射器对该待处理数据进行映射处理,得到中间结果数据;根据该中间结果数据中各键值对的键以及化简器的预设数量调用相应的化简器对该中间结果数据进行化简处理,得到最终结果数据;及输出该最终结果数据。
一种数据处理装置,包括:获取模块,用于接收映射/化简计算请求,获取基于键值对的待处理数据,该待处理数据中键的数据类型为整数;第一处理模块,用于调用映射器对该待处理数据进行映射处理,得到中间结果数据;第二处理模块,用于根据该中间结果数据中各键值对的键以及化简器的预设数量调用相应的化简器对该中间结果数据进行化简处理,得到最终结果数据;及输出模块,用于输出该最终结果数据。
相较于现有技术,本发明数据处理方法及装置,针对键的数据类型为整数的键值对待处理数据,在调用映射器对该待处理数据进行映射处理得到中间结果数据后,根据该中间结果数据中各键值对的键以及化简器的预设数量调用相应的化简器对该中间结果数据进行化简处理,可以将中间结果数据较为平均地分配给该预设数量的化简器进行处理,并且算法更为简单,从而可以提高使用映射/化简模型处理数据时整体流程的运行效率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410640319.0/2.html,转载请声明来源钻瓜专利网。