[发明专利]一种基于DAG模型的数据ETL系统及使用方法在审
申请号: | 202111106395.X | 申请日: | 2021-09-22 |
公开(公告)号: | CN113934782A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 陈坤龙;吴梁斌;许晓琨;詹进林 | 申请(专利权)人: | 易联众智鼎(厦门)科技有限公司;易联众信息技术股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
代理公司: | 厦门加减专利代理事务所(普通合伙) 35234 | 代理人: | 李强;杨泽奇 |
地址: | 361008 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dag 模型 数据 etl 系统 使用方法 | ||
本发明涉及数据管理技术领域,特别涉及一种基于DAG模型的数据ETL系统及使用方法,其中系统包括主节点服务、若干个工作节点服务、接口服务和Zookeeper服务;接口服务用于将节点元数据保存到数据库中;主节点服务用于查询数据库中的任务信息,将要执行的任务生成任务队列信息,并将任务队列信息保存到Zookeeper服务;工作节点服务用于通过读取Zookeeper服务的任务队列信息,去顺序执行任务,并在运行完后将任务状态保存到数据库。该系统包括主节点服务、若干工作节点服务、接口服务和Zookeeper服务,解决了传统的SQL语句对数据的处理不能实现可视化的效果,不能查看数据的血缘关系的问题,实现实时监控任务运行状态、支持多租户、支持多种任务类型,并且易于使用的效果。
技术领域
本发明涉及数据管理技术领域,特别涉及一种基于DAG模型的数据ETL系统及使用方法。
背景技术
随着互联网技术的高速发展,数据产生的速度、数量也随之增长。为了有效利用这些隐藏价值的数据,需要对数据进行清洗、转换操作,实现数据的最大利用化。
CN201911121129.7的专利《一种多源数据统一SQL提供数据服务的方法》,提供了一种多源数据统一SQL提供数据服务的方法,包括数据标签管理、数据元标准管理、数据模型管理、数据实例化管理和数据服务管理。本发明实现了数据的标准化管理,并通过标准化后的SQL提供了异构数据的统一CRUD方法。克服了数据格式、定义混乱,不同能力水平的DBA对数据库架构方式不同引起的混乱,不同DSL整合的困难。解决了保持其他系统独立性的情况下外部数据和系统融合分析的问题。实现了多数据系统、多数据来源的数据统一管理,数据层的标准化、资产化和服务化。
然而,通过传统的SQL语句对数据的处理存在不能实现可视化的效果,不能查看数据的血缘关系的问题。
发明内容
为解决上述现有技术中传统的SQL语句对数据的处理存在不能实现可视化的效果,不能查看数据的血缘关系的问题,本发明提供一种基于DAG模型的数据ETL系统,其特征在于:包括主节点服务、若干个工作节点服务、接口服务和Zookeeper服务;
所述接口服务用于将节点元数据保存到数据库中;
所述主节点服务用于查询所述数据库中的任务信息,将要执行的任务生成任务队列信息,并将任务队列信息保存到所述Zookeeper服务;
所述工作节点服务用于通过读取Zookeeper服务的任务队列信息,去顺序执行任务,并在运行完后将任务状态保存到所述数据库。
在一实施例中,所述主节点服务还用于通过监听所述Zookeeper服务的临时节点变化来确定所述工作节点服务的运行状态,并将异常信息显示以实现提醒;所述主节点服务还用于监控各个所述工作节点服务的负载情况,以将后续任务提交到负载较轻的所述工作节点服务运行。
在一实施例中,所述主节点服务包括调度器线程、分布式调度组件、执行器线程和任务管理线程,所述主节点服务各线程的执行步骤如下:
所述调度器线程定时扫描所述数据库中的command表,并根据不同任务的命令类型决定业务操作生成定时任务;
所述分布式调度组件对所述定时任务进行启停操作来调度任务;
调度后的任务通过所述执行器线程进行DAG任务切分、任务提交监控和命令类型的逻辑处理;
所述任务管理线程将任务持久化,持久化指的是把任务的运行状态、运行时长、运行日志保存到所述数据库。
在一实施例中,各个所述工作节点服务启动时在所述Zookeeper服务注册临时节点并维持心跳,所述工作节点服务还通过所述Zookeeper服务进行分布式锁。
在一实施例中,各个所述工作节点均包括任务获取线程和日志服务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易联众智鼎(厦门)科技有限公司;易联众信息技术股份有限公司,未经易联众智鼎(厦门)科技有限公司;易联众信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111106395.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物样本传递窗
- 下一篇:基于模式匹配的电力调度指令与复诵核对方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置