[发明专利]一种MapReduce系统无效

专利信息
申请号: 201210479119.2 申请日: 2012-11-22
公开(公告)号: CN103023805A 公开(公告)日: 2013-04-03
发明(设计)人: 林学练;李金贵;赵保敬;随培培;胡春明 申请(专利权)人: 北京航空航天大学
主分类号: H04L12/861 分类号: H04L12/861;H04L12/911;H04L29/08
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 刘芳
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 mapreduce 系统
【说明书】:

技术领域

发明涉及计算机技术,尤其涉及一种MapReduce系统。

背景技术

谷歌(Google)公司于2004年发表了基于映射化简的编程模型的论文,论文名称为《MapReduce:simplified data processing on large clusters》,此后,以分布式系统基础架构(Hadoop)为代表的分布式并行海量数据处理工具,成为企业的首选及学术研究的热点。与关系数据库系统,例如Oracle等关系型商业数据库相比,Hadoop的线性扩展及所使用的MapReduce模型的并行计算能力,在大数据处理场景中表现优异。雅虎(Yahoo)公司的互联网(Internet)搜索服务、社交网络服务网站脸谱(Facebook)的社会性网络服务(Social Networking Services,SNS)数据分析、国内百度搜索引擎的日志分析、淘宝的数据魔方服务以及中国移动“大云”(Big Cloud)系统中,都使用了Hadoop作为核心数据处理工具。Hadoop成为当前大中型企业处理拍字节(PB)级数据的事实上的标准工具。

在Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)之上,进一步地实现了MapReduce框架。目前Hadoop平台的MapReduce系统,对作业的执行一般包括执行映射任务(Map Task)和化简任务(Reduce Task)两个阶段,其中,在执行Reduce Task时还包括混洗(Shuffle)的过程。在执行Reduce Task时,主要消耗中央处理器(Central Processing Unit,CPU)资源和内存资源;由于Hadoop平台一般由集群计算机构建,执行Reduce Task的计算机在执行Shuffle过程时,还需要通过网络访问Map Task所在的计算机,因此执行Shuffle过程时,需要消耗网络带宽资源和内存资源。

但是,由于Shuffle过程是Reduce Task中的一部分,Hadoop平台为Reduce Task分配资源时,将同时分配CPU资源、网络带宽资源和内存资源。当MapReduce系统执行Reduce Task中的Shuffle过程时,为ReduceTask分配的CPU资源将处于空闲状态;当执行Reduce Task中的其他部分时,为Shuffle过程分配的网络带宽资源将处于空闲状态。因此,现有技术中的MapReduce系统在资源利用率方面存在不足。

发明内容

本发明提供一种MapReduce系统,用于解决MapReduce系统在资源利用率方面存在不足。

本发明提供的MapReduce系统,包括Map节点、Shuffle节点和Reduce节点;

所述Reduce节点,用于向所述Shuffle节点发送读写请求,所述读写请求中携带有Map节点标识信息以及Reduce节点标识信息;

所述Shuffle节点,用于根据从所述Reduce节点接收到的所述读写请求中的所述Map节点标识信息,将所述读写请求发送给所述Map节点标识信息对应的Map节点;

所述Map节点,用于根据从所述Shuffle节点接收到的所述读写请求中的所述Reduce节点标识信息和预设的Reduce节点与目标数据的对应关系,获得所述读写请求对应的目标数据,并将所述目标数据返回给所述Shuffle节点,以供所述Shuffle节点将所述目标数据返回给发送所述读写请求的Reduce节点。

本发明实施例提供的MapReduce系统,将Shuffle从Reduce Task中分离出来,将Shuffle Task作为独立的节点,当Reduce节点需要从Map节点读取数据时,可以通过向Shuffle节点发送读写请求,通过Shuffle节点从Map节点读取相应的数据,由于新创建的Shuffle节点保持了与原Reduce节点中的Shuffle过程相同的功能,使得MapReduce系统的功能没有缺失;在将Shuffle节点作为独立的节点从Reduce节点中分离出来之后,在对各节点进行资源分配时,可以针对Shuffle节点和Reduce节点各自的资源需求进行分配,与为原有的包括Shuffle过程的Reduce节点分配资源的方式相比,有效地提高了MapReduce系统中CPU资源和网络带宽资源等资源的利用率,并且提高了系统的性能。

附图说明

图1为本发明提供的MapReduce系统一实施例的结构示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210479119.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top