[发明专利]一种基于NiFi更新Delta Lake的方法有效

专利信息
申请号: 202110107924.1 申请日: 2021-01-27
公开(公告)号: CN112800073B 公开(公告)日: 2023-03-28
发明(设计)人: 杨贵柽;周永进;李国涛;胡清 申请(专利权)人: 浪潮云信息技术股份公司
主分类号: G06F16/23 分类号: G06F16/23;G06F16/22;G06F3/04845;G06F9/54
代理公司: 济南信达专利事务所有限公司 37100 代理人: 郗艳荣
地址: 250100 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 nifi 更新 delta lake 方法
【说明书】:

发明特别涉及一种基于NiFi更新Delta Lake的方法。该基于NiFi更新Delta Lake的方法,为保证增量数据的顺序性,以kafka为消息中间件进行存储读取;NiFi处理器启动sparkStreaming程序读取kafka主题数据,并对Delta Lake存储层的数据进行更新;Hive组件通过metastore对Delta Lake存储层创建的表进行关联,从而间接实现对Hive表的更新,即可通过SparkSql进行查询计算。该基于NiFi更新Delta Lake的方法,配置简单,将提交sparkstreaming程序与启动kafka生产者客户端合并为一个处理器,大大减少了使用者的配置复杂度,同时解决了Hive表中更新数据复杂且效率低的问题,能够满足大部分业务的增量需求,运行稳定,开发成本低,具有广泛的应用场景。

技术领域

本发明涉及数据湖技术领域,特别涉及一种基于NiFi更新Delta Lake的方法。

背景技术

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。现在很多公司数据架构中都存在数据湖,数据湖是一种大型数据存储库和处理引擎。它能够存储大量各种类型的数据,拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力,虽然数据湖在数据范围方面迈出了一大步,但是也面临了很多问题。数据湖中的数据更新就是一大难题。

Hive是数据湖中最常用的存储组件,但是进行更新或者删除数据操作的时候却是十分复杂,不仅对于建表有所要求,还需要构建复杂的管道来读取整个分区或表,修改数据并将其写回。这种模式效率低,并且难以维护。于是Delta Lake便产生了。Delta Lake可创建数据表,并与Hive做关联,于是便可在Hive中查询到该表,即亦可通过sparksql查询或者计算该表的数据。

数据湖的使用者并不关心数据是怎样更新的,而增量数据又必须保持其顺序性,基于此,本发明提出了一种基于NiFi更新Delta Lake的方法。

发明内容

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于NiFi更新DeltaLake的方法。

本发明是通过如下技术方案实现的:

一种基于NiFi更新Delta Lake的方法,其特征在于:包括以下步骤:

第一步,定义数据源

自定义数据源,将所需的文件及信息参数填备完全;

第二步,定义任务

设置执行sparkStreaming任务的yarn队列以及更新的Hive表名称、依据更新的表字段,通过定义的sparkStreaming任务即可获取连接数据源的所有参数信息;

第三步,NiFi处理器运行任务

为保证增量数据的顺序性,以kafka为消息中间件进行存储读取;NiFi处理器启动sparkStreaming程序读取kafka主题数据,并对Delta Lake存储层的数据进行更新;

Hive组件通过metastore(元数据存储)对Delta Lake存储层创建的表进行关联,从而间接实现对Hive表的更新,即可通过SparkSql进行查询计算。

所述第三步中,启动kakfa的生产者客户端存入增量数据,通过日志解析来判断每条增量数据是通过新增、修改或者删除操作得到的,并在每条增量数据中新增一个字段来保存对应的操作信息。

所述第三步中,sparkStreaming任务定时读取kafka主题数据,在sparkStreaming程序获取增量数据后,根据增量数据中自带的操作信息字段来对Delta Lake存储层对应数据进行相应操作即可。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110107924.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top