[发明专利]一种基于WEB的可视化大数据工作流配置方法及系统在审

专利信息
申请号: 201711246865.6 申请日: 2017-12-01
公开(公告)号: CN108037919A 公开(公告)日: 2018-05-15
发明(设计)人: 张祺君;黄超;曹正凤 申请(专利权)人: 北京博宇通达科技有限公司
主分类号: G06F8/34 分类号: G06F8/34;G06F9/445;G06Q10/10
代理公司: 北京正鼎专利代理事务所(普通合伙) 11495 代理人: 岳亚
地址: 100078 北京市丰*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 web 可视化 数据 工作流 配置 方法 系统
【说明书】:

本公开公开了一种基于WEB的可视化大数据工作流配置方法及系统,通过浏览器使用拖拽的方式和向导界面实现工作流配置,提升开发效率,降低人员成本。同时,提供完善的MapReduce/Hive/Spark支持,当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL,本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的,本公开的方案能够提升运行速度,实现为轻量级的分布式工作流引擎,提升分布式程序的调度、运行速度,提升系统性能。

技术领域

本公开涉及大数据处理技术领域,具体涉及一种基于WEB的可视化大数据工作流配置方法及系统。

背景技术

大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!

大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量的结构化和非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

现有技术中,通常采用两种办法调度执行大数据Spark/MapReduce分布式程序,分别是采用Linux计划任务方式调度和使用开源分布式工作流引擎调度。在编写Spark/Mapreduce程序或者脚本,通过Linux计划任务对这些程序进行调度运行。这么做生产率低、复杂度高,系统的维护成本也会非常高。采用开源的工作流引擎调度执行,目前有较常见开源的工作流引擎的有Oozie和Azkaban。

Apache Oozie是一个工作流引擎服务器,用于运行分布式任务工作流,运行在Tomcat等Java Servlet容器中。Oozie使用基于XML自定义处理的语言HPDL来定义工作流。Oozie工作流中包含分支、汇合等流程控制节点和执行节点(Action)。执行节点通常是独立的Hadoop Map Reuce任务、Hadoop Pig任务等,所有的Action以有向无环图(DAG DirectAcyclic Graph)的模式部署运行。

Apache Oozie还存在很多问题,主要有:a.实现机制低效,执行的时候需要把所有程序文件保存到HDFS中,在执行时再将程序文件下载到运行节点执行。该机制造成流程的支撑有较多的延时;b.稳定性不够,当前Oozie的成熟度还比较低,存在非常多BUG以及修正速度很慢;c.工作流工作繁琐,需要编写大量的XML配置文件,非常容易出错。

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个web用户界面维护和跟踪工作流。

Azkaban具有相当的局限性,包括:a.任务之间的依赖,不能够指定部分完成;b.目前支持的分布式程序类型较少,目前只支持Java程序、HadoopShell、Pig、Hive、Hive2等程序,尚不支持主流的Spark、Spark SQL等分布式大数据应用程序类型。

现有技术中,使用Linux计划任务调度的方式需要手工编写计划任务脚本,具有配置繁琐和维护成本很高的问题。

配置繁琐。使用手工编写计划任务脚本的方式,配置过程繁琐,正确性难以得到有效验证。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博宇通达科技有限公司,未经北京博宇通达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711246865.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top