[发明专利]一种基于WEB的可视化大数据工作流配置方法及系统在审
申请号: | 201711246865.6 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108037919A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 张祺君;黄超;曹正凤 | 申请(专利权)人: | 北京博宇通达科技有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F9/445;G06Q10/10 |
代理公司: | 北京正鼎专利代理事务所(普通合伙) 11495 | 代理人: | 岳亚 |
地址: | 100078 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 web 可视化 数据 工作流 配置 方法 系统 | ||
本公开公开了一种基于WEB的可视化大数据工作流配置方法及系统,通过浏览器使用拖拽的方式和向导界面实现工作流配置,提升开发效率,降低人员成本。同时,提供完善的MapReduce/Hive/Spark支持,当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL,本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的,本公开的方案能够提升运行速度,实现为轻量级的分布式工作流引擎,提升分布式程序的调度、运行速度,提升系统性能。
技术领域
本公开涉及大数据处理技术领域,具体涉及一种基于WEB的可视化大数据工作流配置方法及系统。
背景技术
大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。
传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!
大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量的结构化和非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。
现有技术中,通常采用两种办法调度执行大数据Spark/MapReduce分布式程序,分别是采用Linux计划任务方式调度和使用开源分布式工作流引擎调度。在编写Spark/Mapreduce程序或者脚本,通过Linux计划任务对这些程序进行调度运行。这么做生产率低、复杂度高,系统的维护成本也会非常高。采用开源的工作流引擎调度执行,目前有较常见开源的工作流引擎的有Oozie和Azkaban。
Apache Oozie是一个工作流引擎服务器,用于运行分布式任务工作流,运行在Tomcat等Java Servlet容器中。Oozie使用基于XML自定义处理的语言HPDL来定义工作流。Oozie工作流中包含分支、汇合等流程控制节点和执行节点(Action)。执行节点通常是独立的Hadoop Map Reuce任务、Hadoop Pig任务等,所有的Action以有向无环图(DAG DirectAcyclic Graph)的模式部署运行。
Apache Oozie还存在很多问题,主要有:a.实现机制低效,执行的时候需要把所有程序文件保存到HDFS中,在执行时再将程序文件下载到运行节点执行。该机制造成流程的支撑有较多的延时;b.稳定性不够,当前Oozie的成熟度还比较低,存在非常多BUG以及修正速度很慢;c.工作流工作繁琐,需要编写大量的XML配置文件,非常容易出错。
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个web用户界面维护和跟踪工作流。
Azkaban具有相当的局限性,包括:a.任务之间的依赖,不能够指定部分完成;b.目前支持的分布式程序类型较少,目前只支持Java程序、HadoopShell、Pig、Hive、Hive2等程序,尚不支持主流的Spark、Spark SQL等分布式大数据应用程序类型。
现有技术中,使用Linux计划任务调度的方式需要手工编写计划任务脚本,具有配置繁琐和维护成本很高的问题。
配置繁琐。使用手工编写计划任务脚本的方式,配置过程繁琐,正确性难以得到有效验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博宇通达科技有限公司,未经北京博宇通达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711246865.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种采用单位阵法评价药物制剂溶出度相似程度的方法
- 下一篇:一种海盐夏威夷果
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置