[发明专利]一种分布式数据库实时采集入湖方法及系统在审
| 申请号: | 202310232125.6 | 申请日: | 2023-03-12 |
| 公开(公告)号: | CN116346920A | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 彭晓君 | 申请(专利权)人: | 天翼云科技有限公司 |
| 主分类号: | H04L67/5682 | 分类号: | H04L67/5682;G06F16/27;G06F16/2458;G06F16/22;H04L67/5681;H04L67/563;H04L67/566;H04L67/12;H04L67/1097 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100010 北京市东城区青*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 数据库 实时 采集 方法 系统 | ||
本发明公开了一种分布式数据库实时采集入湖方法以及系统,属于数据传输技术领域,方法包括:在配置中心中定义数据库服务器节点和采集入湖任务节点;CDC采集服务程序按照预设时间间隔向数据库服务器节点发起修改心跳时间的请求,更新数据库服务器节点中的心跳字段;将需要采集入湖的数据库以及相应的数据表信息添加到采集入湖任务节点;CDC采集服务程序访问采集入湖任务节点,查找需要采集入湖的任务信息;CDC采集服务程序根据需要采集入湖的数据库以及相应的数据表进行采集任务并发送到分布式消息平台中;入湖服务程序访问各采集入湖任务节点,从分布式消息平台中读取数据库以及相应的数据表并进行入湖处理。
技术领域
本发明属于数据传输技术领域,具体涉及一种分布式数据库实时采集入湖方法以及系统。
背景技术
数据库变化数据捕获(CDC,Change Data Capture)采集技术已经是现在数据库同步和数据库采集中的主流技术,CDC通过源数据库捕获到数据和数据结构的增量变更,近乎实时地将这些变更情况传播到其他数据库或应用程序之处。通过这种方式,CDC能够向数据仓库提供高效、低延迟的数据传输,以便信息被及时转换并交付给专供分析的应用程序。
数据湖技术作为数仓存储的新技术,凭借其高效实时的摄入、读取效率以及对于传统大数据数仓技术较好的兼容性,开始被很多公司引入到大数据平台中。数据湖的典型技术为Hudi。
通过数据库CDC技术采集数据库数据入湖已经是主流的数据库数据采集方案了。主流技术一般通过CDC的数据先通过CDC工具导入Kafka或者Pulsar,再通过Flink或者是Spark流式消费写到Hudi里。
但是,目前主流的CDC技术采集数据库数据入湖,一方面,因为CDC都是实时采集,CDC工具都是以服务的形式于整个采集链路中。并且一般由于采集源分散在网络的各种位置上,往往一个数据库对应于一个独立的CDC服务,而大量这种独立的服务对于采集配置变更以及维护工作是非常麻烦的。另一方面,多个CDC服务和入湖服务本身是相对独立的,入湖过程中湖表的schema定义往往提前约定好并通过硬编码的方式到入湖过程中的,对于采集源数据表的schema的变化是无法感知的。
发明内容
本发明实施例的目的是提供一种分布式数据库实时采集入湖方法以及系统,能够解决现有的数据入湖技术中大量独立的CDC服务对于采集配置变更以及维护工作是非常麻烦的,多个CDC服务和入湖服务本身是相对独立的,入湖过程中无法感知源数据表的schema的变化,导致数据入湖流程冗余、效率低下的技术问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面
本发明实施例提供了一种分布式数据库实时采集入湖方法,包括:
S101:在配置中心中定义数据库服务器节点和采集入湖任务节点;
S102:在采集数据库服务器上部署变化数据捕获CDC采集服务程序;
S103:CDC采集服务程序根据配置好的配置中心信息,向配置中心发起创建数据库服务器节点的请求;
S104:在数据库服务器节点创建完毕的情况下,CDC采集服务程序按照预设时间间隔向数据库服务器节点发起修改心跳时间的请求,更新数据库服务器节点中的心跳字段;
S105:将需要采集入湖的数据库以及相应的数据表信息添加到采集入湖任务节点;
S106:CDC采集服务程序访问采集入湖任务节点,查找需要采集入湖的任务信息,并与采集数据库服务器中存储的数据进行对比,判断是否存在需要采集入湖的数据库以及相应的数据表;
S107:在存在需要采集入湖的数据库以及相应的数据表的情况下,CDC采集服务程序获取待采集数据表的schema信息,并发送至采集入湖任务节点,以在采集入湖任务节点中写入schema信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310232125.6/2.html,转载请声明来源钻瓜专利网。





