[发明专利]一种基于NiFi更新Delta Lake的方法有效
申请号: | 202110107924.1 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112800073B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 杨贵柽;周永进;李国涛;胡清 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/22;G06F3/04845;G06F9/54 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 郗艳荣 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nifi 更新 delta lake 方法 | ||
本发明特别涉及一种基于NiFi更新Delta Lake的方法。该基于NiFi更新Delta Lake的方法,为保证增量数据的顺序性,以kafka为消息中间件进行存储读取;NiFi处理器启动sparkStreaming程序读取kafka主题数据,并对Delta Lake存储层的数据进行更新;Hive组件通过metastore对Delta Lake存储层创建的表进行关联,从而间接实现对Hive表的更新,即可通过SparkSql进行查询计算。该基于NiFi更新Delta Lake的方法,配置简单,将提交sparkstreaming程序与启动kafka生产者客户端合并为一个处理器,大大减少了使用者的配置复杂度,同时解决了Hive表中更新数据复杂且效率低的问题,能够满足大部分业务的增量需求,运行稳定,开发成本低,具有广泛的应用场景。
技术领域
本发明涉及数据湖技术领域,特别涉及一种基于NiFi更新Delta Lake的方法。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。现在很多公司数据架构中都存在数据湖,数据湖是一种大型数据存储库和处理引擎。它能够存储大量各种类型的数据,拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力,虽然数据湖在数据范围方面迈出了一大步,但是也面临了很多问题。数据湖中的数据更新就是一大难题。
Hive是数据湖中最常用的存储组件,但是进行更新或者删除数据操作的时候却是十分复杂,不仅对于建表有所要求,还需要构建复杂的管道来读取整个分区或表,修改数据并将其写回。这种模式效率低,并且难以维护。于是Delta Lake便产生了。Delta Lake可创建数据表,并与Hive做关联,于是便可在Hive中查询到该表,即亦可通过sparksql查询或者计算该表的数据。
数据湖的使用者并不关心数据是怎样更新的,而增量数据又必须保持其顺序性,基于此,本发明提出了一种基于NiFi更新Delta Lake的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于NiFi更新DeltaLake的方法。
本发明是通过如下技术方案实现的:
一种基于NiFi更新Delta Lake的方法,其特征在于:包括以下步骤:
第一步,定义数据源
自定义数据源,将所需的文件及信息参数填备完全;
第二步,定义任务
设置执行sparkStreaming任务的yarn队列以及更新的Hive表名称、依据更新的表字段,通过定义的sparkStreaming任务即可获取连接数据源的所有参数信息;
第三步,NiFi处理器运行任务
为保证增量数据的顺序性,以kafka为消息中间件进行存储读取;NiFi处理器启动sparkStreaming程序读取kafka主题数据,并对Delta Lake存储层的数据进行更新;
Hive组件通过metastore(元数据存储)对Delta Lake存储层创建的表进行关联,从而间接实现对Hive表的更新,即可通过SparkSql进行查询计算。
所述第三步中,启动kakfa的生产者客户端存入增量数据,通过日志解析来判断每条增量数据是通过新增、修改或者删除操作得到的,并在每条增量数据中新增一个字段来保存对应的操作信息。
所述第三步中,sparkStreaming任务定时读取kafka主题数据,在sparkStreaming程序获取增量数据后,根据增量数据中自带的操作信息字段来对Delta Lake存储层对应数据进行相应操作即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110107924.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能五轴木工加工中心
- 下一篇:一种HBase二级索引的实现方法