[发明专利]一种MapReduce系统无效
申请号: | 201210479119.2 | 申请日: | 2012-11-22 |
公开(公告)号: | CN103023805A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 林学练;李金贵;赵保敬;随培培;胡春明 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | H04L12/861 | 分类号: | H04L12/861;H04L12/911;H04L29/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 系统 | ||
技术领域
本发明涉及计算机技术,尤其涉及一种MapReduce系统。
背景技术
谷歌(Google)公司于2004年发表了基于映射化简的编程模型的论文,论文名称为《MapReduce:simplified data processing on large clusters》,此后,以分布式系统基础架构(Hadoop)为代表的分布式并行海量数据处理工具,成为企业的首选及学术研究的热点。与关系数据库系统,例如Oracle等关系型商业数据库相比,Hadoop的线性扩展及所使用的MapReduce模型的并行计算能力,在大数据处理场景中表现优异。雅虎(Yahoo)公司的互联网(Internet)搜索服务、社交网络服务网站脸谱(Facebook)的社会性网络服务(Social Networking Services,SNS)数据分析、国内百度搜索引擎的日志分析、淘宝的数据魔方服务以及中国移动“大云”(Big Cloud)系统中,都使用了Hadoop作为核心数据处理工具。Hadoop成为当前大中型企业处理拍字节(PB)级数据的事实上的标准工具。
在Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)之上,进一步地实现了MapReduce框架。目前Hadoop平台的MapReduce系统,对作业的执行一般包括执行映射任务(Map Task)和化简任务(Reduce Task)两个阶段,其中,在执行Reduce Task时还包括混洗(Shuffle)的过程。在执行Reduce Task时,主要消耗中央处理器(Central Processing Unit,CPU)资源和内存资源;由于Hadoop平台一般由集群计算机构建,执行Reduce Task的计算机在执行Shuffle过程时,还需要通过网络访问Map Task所在的计算机,因此执行Shuffle过程时,需要消耗网络带宽资源和内存资源。
但是,由于Shuffle过程是Reduce Task中的一部分,Hadoop平台为Reduce Task分配资源时,将同时分配CPU资源、网络带宽资源和内存资源。当MapReduce系统执行Reduce Task中的Shuffle过程时,为ReduceTask分配的CPU资源将处于空闲状态;当执行Reduce Task中的其他部分时,为Shuffle过程分配的网络带宽资源将处于空闲状态。因此,现有技术中的MapReduce系统在资源利用率方面存在不足。
发明内容
本发明提供一种MapReduce系统,用于解决MapReduce系统在资源利用率方面存在不足。
本发明提供的MapReduce系统,包括Map节点、Shuffle节点和Reduce节点;
所述Reduce节点,用于向所述Shuffle节点发送读写请求,所述读写请求中携带有Map节点标识信息以及Reduce节点标识信息;
所述Shuffle节点,用于根据从所述Reduce节点接收到的所述读写请求中的所述Map节点标识信息,将所述读写请求发送给所述Map节点标识信息对应的Map节点;
所述Map节点,用于根据从所述Shuffle节点接收到的所述读写请求中的所述Reduce节点标识信息和预设的Reduce节点与目标数据的对应关系,获得所述读写请求对应的目标数据,并将所述目标数据返回给所述Shuffle节点,以供所述Shuffle节点将所述目标数据返回给发送所述读写请求的Reduce节点。
本发明实施例提供的MapReduce系统,将Shuffle从Reduce Task中分离出来,将Shuffle Task作为独立的节点,当Reduce节点需要从Map节点读取数据时,可以通过向Shuffle节点发送读写请求,通过Shuffle节点从Map节点读取相应的数据,由于新创建的Shuffle节点保持了与原Reduce节点中的Shuffle过程相同的功能,使得MapReduce系统的功能没有缺失;在将Shuffle节点作为独立的节点从Reduce节点中分离出来之后,在对各节点进行资源分配时,可以针对Shuffle节点和Reduce节点各自的资源需求进行分配,与为原有的包括Shuffle过程的Reduce节点分配资源的方式相比,有效地提高了MapReduce系统中CPU资源和网络带宽资源等资源的利用率,并且提高了系统的性能。
附图说明
图1为本发明提供的MapReduce系统一实施例的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210479119.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提取纯化洛伐他汀的方法
- 下一篇:一种治疗眩晕的中药组合物