[发明专利]一种作业调度管理系统及方法有效
申请号: | 201310251423.6 | 申请日: | 2013-06-24 |
公开(公告)号: | CN103324539B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 亓开元;张东;刘正伟;王理想 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作业 调度 管理 系统 方法 | ||
技术领域
本发明涉及云计算技术领域,具体的说是一种多数据中心间、跨Hadoop集群的作业调度管理系统及方法。
背景技术
近年来,随着信息化建设的深入发展,大量前端设备,如传感器、视频及移动终端得到广泛应用,产生了海量的数据,如访问记录、业务视音频、图片等半结构化和非结构化数据暴涨,使得当前的存储和计算架构已经不能适应“大数据”的发展需求。数据作为战略资源,其重要性毋庸置疑,在实现数据整合、存储的基础上,如何从海量的数据当中快速分析和挖掘出有利用价值的信息,提升政府或行业部门的分析、决策和指挥水平,成为当前数据处理领域的热点问题。
基于MapReduce编程模型的Hadoop集群实现了在大量低端通用服务器组成的无共享集群架构上建立面向海量数据的并行计算模型和可伸缩、可靠的处理环境,被数据中心广泛采用。当前很多政府、行业建设的数据中心采用两级架构,即在总部和分支机构分别建设数据中心并部署Hadoop集群。例如,某省视频监控系统采用省、地市2级部署方式,在从全省范围内查找某线索信息时,如绘制某车辆轨迹时,需要轮询各地的视频索引数据库确定是否存在该车的相关信息,然后根据在各个地市数据查询的结果绘制出该车辆的运行轨迹,计算量较大,传统数据库及处理方式无法满足对处理响应速度的要求,除需要改进原有传统的数据存储方式外,还要实现全省作业集群的统一管理和调度,既实现全省各地市的分布式计算调度,又能实现地市内的计算的并行化。这类业务应用的特征在于需要检索、分析多个数据中心的监控数据,在多个Hadoop集群间统一调度、分配作业,为此需要建立跨集群的Hadoop作业调度管理系统。然而,当前的各种开源版本和各种发型版本Hadoop无法满足跨数据中心的hadoop集群间的作业调度,其中主要面临的问题是:
1)在两级、多数据中心环境下,作为管理者的数据中心需要对申请接入的数据中心进行审核和验证,参与业务处理的数据中心需要保持一定的自主性,掌握对接入和退出的控制。因此,如何实现跨数据中心的安全认证和自治,是跨Hadoop集群作业调度管理首先需要解决的问题。
2)在两级、多数据中心环境下,管理数据中心如何对参与数据中心的Hadoop集群进行有效的控制,如同步或异步方式的指令发送和结果返回,并对接入数据中心的状态和作业运行状态进行监控,是实现跨Hadoop集群作业管理的关键问题。
3)在多数据中心环境下,如何对参与作业运行的数据(如作业程序包、结果文件)进行高效、可靠传输,也是实现跨Hadoop集群作业管理的关键问题。
利用消息中间件可以满足安全认证接入和异步、可靠传输需求,建立松耦合的两级Hadoop集群体系结构,但是现有消息中间件缺乏对接入节点状态和运行作业的监控方法,并且仅支持建立静态广播主题,缺乏动态的组播机制,无法实现路由分组的运行时定制需求。此外,现有的消息中间件需要在内存中维护消息状态,或采用数据库方式持久化消息,并且其传输协议需要大量的分片和组装、序列化和反序列化开销,在文件规模过大时,例如超过1 GB时,将造成严重的性能瓶颈,然而在基于Hadoop的大数据场景下,大文件相当普遍,因此,如何实现大文件的高速传输是跨数据中心Hadoop集群作业调度管理的关键。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种多数据中心间、跨Hadoop集群的作业调度管理系统及方法。
本发明的技术方案是按以下方式实现的,该一种作业调度管理系统,包括FTP服务器、客户端、一个控制节点和若干处理节点,其中
客户端:将作业包发送给FTP服务器、将控制命令发送给控制节点;
控制节点:接收来自客户端的控制命令,接收来自FTP服务器的数据信息、接收来自处理节点的状态信息、发送相关控制命令给处理节点;
处理节点:接收来自FTP服务器的数据信息、发送结果文件给FTP服务器、发送状态信息给控制节点、接收来自控制节点的控制命令;
FTP服务器:接收来自客户端的作业包和来自处理节点的结果文件,并发送数据信息给控制节点和处理节点。
所述控制节点的详细结构包括:
作业控制模块,负责作业控制命令的接收和作业调度,发送作业部署、启动、停止、暂停、重试和心跳测试等命令;
监控模块,负责追踪作业的生命周期,当出现异常时进行容错处理,同时监控处理节点的加入和退出、作业队列、作业运行情况和资源使用情况;
所述处理节点的结构包括:
数据接收模块,负责作业包的接收;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310251423.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:树脂成型用模具
- 下一篇:用于模制具有至少一个底切的塑料件的设备