[发明专利]一种基于Spark的数据处理方法及系统在审

专利信息
申请号: 201710335307.0 申请日: 2017-05-12
公开(公告)号: CN107463595A 公开(公告)日: 2017-12-12
发明(设计)人: 木伟民;张云;李名扬;张明诚;王伟平 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所(普通合伙)11200 代理人: 司立彬
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 数据处理 方法 系统
【说明书】:

技术领域

发明涉及一种基于Spark的数据处理方法及系统,属于计算机软件技术领域。

背景技术

目前已经存在的关于大数据预处理系统大多是基于Hadoop来开发的,Hadoop的中间处理结果存放在HDFS文件系统中,这将会导致有许多额外的开销,而Spark使用了RDD的理念,这允许它可以在透明的内存中存储数据。这种做法大大的减少了数据处理过程中磁盘的读写。另外还有一些大数据预处理系统是基于spark来开发的,但是其不具有通用性。

本发明系统的特点是提供了大量的算子接口,用户可以自定义场景来实现对特定文件的相应处理;用户可以根据自己需要自定义算子;本系统是对Spark的进一步封装,用户在自定义算子的时候不需要使用Spark的底层API;本系统能够从用户指定的不同数据源将数据拉到HDFS;本系统能够处理不同类型的文件。本发明解决了现有的大数据预处理系统效率低、不具有通用性的技术问题。

现有的相似工作大都不具有通用性,用户只能使用系统提供的功能算子,不能根据自己的需求自定义,无法应用于一些灵活的应用场景,而且无论从性能、可扩展性上都存在着或多或少的问题。

发明内容

本发明的目的在于提供一种基于Spark的数据处理方法及系统,该系统能够实现对接各种异构数据。

本发明的技术方案为:

一种基于分布式计算平台的数据处理方法,其步骤为:

1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;

2)根据场景的XML文件生成相应的有向无环图DAG;

3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。

进一步的,将该有向无环图DAG切分成若干子任务subJob的方法为:

21)读取该场景的XML文件,获取每个算子的类型,判断是否存在复杂算子;其中,所述复杂算子是指操作对象是数据全集的算子;

22)如果不存在复杂算子,则将该场景作为一个子任务subJob;如果存在复杂算子,则将该有向无环图DAG中的每个算子都作为一个独立的子任务subjob,然后按照设定规则对子任务subjob进行合并;所述算子分为两类,即适配算子和计算算子;适配算子包括适配输入算子和适配输出算子,计算算子包括简单计算算子和复杂计算算子;所述设定规则包括:

1)简单计算算子接简单计算算子则合并

2)简单计算算子接复杂计算算子则不合并

3)复杂计算算子接简单计算算子则不合并

4)复杂计算算子接复杂计算算子则不合并

5)适配输入算子接简单计算算子则合并

6)适配输入算子接复杂计算算子则不合并

7)简单计算算子接适配输出算子则合并

8)复杂计算算子接适配输出算子则不合并

23)对于步骤22)处理后的子任务subjob,如果子任务subjob的结束端不是适配输出算子或复杂算子,则在该子任务subjob末端加上sink算子,其中sink算子的功能为将数据存储到hive临时表中;如果子任务subjob的始端不是适配输入算子或复杂算子,则在该子任务subjob始端加上scan算子,其中scan算子的功能为从hive临时表中读取数据。

进一步的,步骤2)中,对该有向无环图DAG进行判断,确定该有向无环图DAG中是否有环、有子环或者断裂,如果有其中之一,则停止执行,并将结果反馈到该用户所在的界面。

进一步的,所述步骤3)中,执行子任务sujob之前,首先对子任务subjob进行扫描;扫描的过程中如果发现Reduce算子,则在该算子前面添加ReduceSink算子,如果没有发现,则不做处理;扫描之后执行子任务subjob。

一种基于分布式计算平台的数据处理系统,其特征在于,包括管理单元、执行单元和计算单元;其中,

所述管理单元,用于用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;

所述计算单元,用于根据场景的XML文件生成相应的有向无环图DAG;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710335307.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top