[发明专利]基于Apache Oozie框架处理大数据的流程任务的调度装置在审
申请号: | 201811204278.5 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109284324A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 桂艳军;张金桥 | 申请(专利权)人: | 深圳中顺易金融服务有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/23;G06F9/48 |
代理公司: | 深圳市凯达知识产权事务所 44256 | 代理人: | 刘大弯 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器端 界面操作模块 操作模块 调度装置 大数据 客户端 前端界面 任务操作 任务监控 任务提交 用户操作 存储层 服务端 控制层 业务层 | ||
本发明涉及一种基于Apache Oozie框架处理大数据的流程任务的调度装置,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层。
技术领域
本发明涉及数据处理技术领域,尤其是一种基于Apache Oozie框架的大数据处理过程的流程任务的调度装置。
背景技术
Apache Oozie一个基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的数据处理任务的调度与协调。Oozie需要部署到Java Servlet容器中运行。作为一个开源的工作流引擎,它提供了任务提交,任务启动,任务杀死,任务挂起,任务恢复,任务监控,任务重跑,任务调度等功能,Oozie官网提供了一个简单的查询界面。其架构设计如图1所示,Oozie提供了三种流程引擎
1,workflow:顺序执行流程节点,Oozie客户端提交流程描述文件到服务器端,Oozie服务器端解析流程文件,按照流程顺序执行节点。
2,Coordinator:协调器引擎,OOzie使用Coordinator来管理workflow,通过预定义的时间或基于数据条件来定时的启动workflow。
3,Bundle:oozie使用Bundle任务来将多个Coordinator组织成一个集合,使用buddle可以更方便的管理多个Coordinator协调器。
Oozie的最小执行单元是节点,包括Hadoop map-reduce,Hadoop file system,Pig,SSH,HTTP,eMail and Oozie sub-workflow等动作节点和start,end,kill,fork,join,decision等控制节点,同时Oozie还支持用户自定义节点,Oozie使用有向无环图(DAG)将各个流程节点组织成工作流,oozie对节点和工作流的描述都使用xml文档来描述,使用oozie开发,运维大数据的现状如图2所示。对于开发过程:
第一步:用户需要在本地使用xml编写流程任务,由于用户使用到不同的流程节点需要参考不同的schema约束,不同的流程节点的属性配置差异较大,一个工作流的文件结构会相对复杂。例举一个只有五个流程节点的workflow.xml文件:
第二步:用户需要将写好的流程文件使用hdfs工具上传到hdfs上。
第三步:用户需要使用Oozie客户端,通常是执行shell命令提交任务。
第四步:使用官网提供的ext界面(需要自己下载ext依赖)或则命令行查看任务的运行状态和运行日志。
大数据的实际开发场景中,数据流通常需要根据业务来划分模块,通常数据流都会按照,数据采集,数据清洗,数据分析,数据汇总,数据展示等流程执行;这些数据流大多是按照指定的频率(按照分钟,小时,天,周,月等)定时执行,而且执行循序上会有数据的依赖关系,因此本质上处理数据开发流程就是非常复杂的。而oozie使用xml来定义流程和协作器,这样用户每开发一个定时任务需要按照oozie xml schema定义的文档至少提供
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中顺易金融服务有限公司,未经深圳中顺易金融服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811204278.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检测数据的管理方法及装置
- 下一篇:一种基于高校的大数据应用平台