[发明专利]基于P2P构架的MapReduce任务跨数据中心调度系统及方法有效
申请号: | 201410344229.7 | 申请日: | 2014-07-18 |
公开(公告)号: | CN104112049A | 公开(公告)日: | 2014-10-22 |
发明(设计)人: | 董博;张汉宁;郑庆华;马天;张未展 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 p2p 构架 mapreduce 任务 数据中心 调度 系统 方法 | ||
技术领域
本申请涉及云计算技术,特别涉及一种MapReduce(用于大规模数据集并行运算的编程模型)任务调度系统及方法。
背景技术
云计算(Cloud Computing)是随着处理器技术、虚拟化技术、分布式存储技术、互联网技术和自动化管理技术的发展而产生的,由分布式的大规模集群和服务器虚拟化软件搭建。目前以开源社区Apache的Hadoop项目分布式文件系统(Hadoop Distributed File System,简称HDFS)和并行编程框架Hadoop MapReduce为代表的技术逐渐成为海量数据存储与分析处理的主流技术。其中,Hadoop MapReduce是当前使用最广泛的海量数据分析技术。
基于Hadoop YARN平台的MapReduce系统如图1所示,主要由ResourceManager(资源管理器)、NodeManager(节点管理器)、AppMaster(应用程序管理器)、Container(执行数据任务的容器)和Client(客户端)组成。资源管理器管理集群内所有应用程序的计算资源的分配。节点管理器是每一台机器框架的代理,是执行应用程序的容器,并监控应用程序的资源使用情况(CPU、内存、硬盘、网络)同时向节点管理器汇报。应用程序管理器负责本应用内的调度和协调,是MapReduce作业的Master,它结合从资源管理器获得的资源和节点管理器协同工作来运行和监控任务。资源管理器和节点管理器可以管理用户在该台机器上的进程并能对计算进行组织。Container管理着一个JVM(Java虚拟机)进程,是执行应用程序的容器,负责执行Map(映射)或者Reduc(归约)任务。
目前,Hadoop MapReduce被众多企业、高校、科研院所等广泛应用于数据中心的数据分析中,但这些分析任务主要在单个数据中心中进行,数据中心之间的处理任务很难开展。随着越来越多分散在各处的独立中小型数据中心的建立,如何实现各数据中心的数据资源和计算资源有效共享,为数据分析应用提供统一的任务提交入口,提高数据分析效率,越来越成为大家关注的问题。目前关于MapReduce任务跨数据中心的调度技术未见有具体的公开报道,是当前亟待解决的问题。
发明内容
本发明的目的是提供一种能实现各数据中心的数据及计算资源共享,为数据分析应用提供统一任务提交入口,提高数据分析效率的跨数据中心MapReduce任务调度的系统及方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于P2P架构MapReduce任务跨数据中心的调度系统,其特征在于,
包括一个客户端、n个数据中心,各数据中心均有一个资源管理器和多个节点管理器,其中各数据中心的资源管理器与客户端之间采用广域网链接,各数据中心的资源管理器之间采用广域网链接,各数据中心的资源管理器与节点管理器之间由局域网链接;各数据中心的资源管理器均包含一个P2P代理模块Proxyer,通过该Proxyer,使各数据中心的资源管理器组成一个P2P对等架构;各数据中心的资源管理器都能接收来自客户端的MapReduce任务请求,成为主资源管理器,并根据任务请求和各数据中心忙闲状态向其它数据中心的资源管理器进行任务分派;被分派任务的资源管理器就成为本次MapReduce任务的执行资源管理器;各数据中心的资源管理器将本中心的MapReduce任务和资源信息同步至其他数据中心的资源管理器中;所述客户端包含有一个MapReduce任务多途径提交模块Submitter:用于与各数据中心的资源管理器交互,客户端通过该Submitter的选择确定本次任务的数据中心主资源管理器,并提交MapReduce任务请求,同时实时从主资源管理器获取任务执行状态。
一种基于P2P架构MapReduce任务跨数据中心的调度方法,其特征在于,包括下述步骤:
(1)通过各个数据中心资源管理器中的Proxyer建立基于P2P架构对等互联,使各个数据中心资源管理器之间实时同步各数据中心状态信息,各数据中心中的节点管理器资源被所有数据中心共享;
(2)客户端通过Submitter发起MapReduce任务请求,根据Submitter预置策略将MapReduce任务发送至某一数据中心的资源管理器,由该主资源管理器按预置的调度策略进行MapReduce任务调度;
(3)主资源管理器按预设调度算法进行任务分析拆解,并分派至其它各数据中心的资源管理器,启动MapReduce任务执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410344229.7/2.html,转载请声明来源钻瓜专利网。