[发明专利]一种自定义库开发的大数据处理方法及系统在审
申请号: | 202010407340.1 | 申请日: | 2020-05-14 |
公开(公告)号: | CN111625218A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 胡鹏;傅苗;匡岳锋;贺群雄;曹林 | 申请(专利权)人: | 中电工业互联网有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20;G06F8/71 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410000 湖南省长沙市长沙高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自定义 开发 数据处理 方法 系统 | ||
1.一种自定义库开发的大数据处理方法,其特征在于,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。
2.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方系统之间的数据接入方式;
对于批处理计算,通过SparkContext对接本机文件系统或分布式文件系统HDFS。
3.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤2具体包括:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
4.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤4具体包括:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
5.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤5中,所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。
6.一种自定义库开发的大数据处理系统,其特征在于,包括:
数据接入模块,用于从第三方系统或分布式文件系统中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块,与数据接入模块通信相连,,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块,与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块,与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块,与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电工业互联网有限公司,未经中电工业互联网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010407340.1/1.html,转载请声明来源钻瓜专利网。