[发明专利]一种MapReduce系统无效

申请号：	201210479119.2	申请日：	2012-11-22
公开（公告）号：	CN103023805A	公开（公告）日：	2013-04-03
发明（设计）人：	林学练;李金贵;赵保敬;随培培;胡春明	申请（专利权）人：	北京航空航天大学
主分类号：	H04L12/861	分类号：	H04L12/861;H04L12/911;H04L29/08
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	刘芳
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 mapreduce 系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术，尤其涉及一种MapReduce系统。

背景技术

谷歌（Google）公司于2004年发表了基于映射化简的编程模型的论文，论文名称为《MapReduce:simplified data processing on large clusters》，此后，以分布式系统基础架构（Hadoop）为代表的分布式并行海量数据处理工具，成为企业的首选及学术研究的热点。与关系数据库系统，例如Oracle等关系型商业数据库相比，Hadoop的线性扩展及所使用的MapReduce模型的并行计算能力，在大数据处理场景中表现优异。雅虎（Yahoo）公司的互联网（Internet）搜索服务、社交网络服务网站脸谱（Facebook）的社会性网络服务（Social Networking Services，SNS）数据分析、国内百度搜索引擎的日志分析、淘宝的数据魔方服务以及中国移动“大云”（Big Cloud）系统中，都使用了Hadoop作为核心数据处理工具。Hadoop成为当前大中型企业处理拍字节（PB）级数据的事实上的标准工具。

在Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）之上，进一步地实现了MapReduce框架。目前Hadoop平台的MapReduce系统，对作业的执行一般包括执行映射任务（Map Task）和化简任务（Reduce Task）两个阶段，其中，在执行Reduce Task时还包括混洗（Shuffle）的过程。在执行Reduce Task时，主要消耗中央处理器（Central Processing Unit，CPU）资源和内存资源；由于Hadoop平台一般由集群计算机构建，执行Reduce Task的计算机在执行Shuffle过程时，还需要通过网络访问Map Task所在的计算机，因此执行Shuffle过程时，需要消耗网络带宽资源和内存资源。

但是，由于Shuffle过程是Reduce Task中的一部分，Hadoop平台为Reduce Task分配资源时，将同时分配CPU资源、网络带宽资源和内存资源。当MapReduce系统执行Reduce Task中的Shuffle过程时，为ReduceTask分配的CPU资源将处于空闲状态；当执行Reduce Task中的其他部分时，为Shuffle过程分配的网络带宽资源将处于空闲状态。因此，现有技术中的MapReduce系统在资源利用率方面存在不足。

发明内容

本发明提供一种MapReduce系统，用于解决MapReduce系统在资源利用率方面存在不足。

本发明提供的MapReduce系统，包括Map节点、Shuffle节点和Reduce节点；

所述Reduce节点，用于向所述Shuffle节点发送读写请求，所述读写请求中携带有Map节点标识信息以及Reduce节点标识信息；

所述Shuffle节点，用于根据从所述Reduce节点接收到的所述读写请求中的所述Map节点标识信息，将所述读写请求发送给所述Map节点标识信息对应的Map节点；

所述Map节点，用于根据从所述Shuffle节点接收到的所述读写请求中的所述Reduce节点标识信息和预设的Reduce节点与目标数据的对应关系，获得所述读写请求对应的目标数据，并将所述目标数据返回给所述Shuffle节点，以供所述Shuffle节点将所述目标数据返回给发送所述读写请求的Reduce节点。

本发明实施例提供的MapReduce系统，将Shuffle从Reduce Task中分离出来，将Shuffle Task作为独立的节点，当Reduce节点需要从Map节点读取数据时，可以通过向Shuffle节点发送读写请求，通过Shuffle节点从Map节点读取相应的数据，由于新创建的Shuffle节点保持了与原Reduce节点中的Shuffle过程相同的功能，使得MapReduce系统的功能没有缺失；在将Shuffle节点作为独立的节点从Reduce节点中分离出来之后，在对各节点进行资源分配时，可以针对Shuffle节点和Reduce节点各自的资源需求进行分配，与为原有的包括Shuffle过程的Reduce节点分配资源的方式相比，有效地提高了MapReduce系统中CPU资源和网络带宽资源等资源的利用率，并且提高了系统的性能。

附图说明

图1为本发明提供的MapReduce系统一实施例的结构示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210479119.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种MapReduce系统无效

专利文献下载