[发明专利]基于内存计算、web可视化配置的多数据源ETL工具在审

专利信息
申请号: 202010856829.7 申请日: 2020-08-24
公开(公告)号: CN112035468A 公开(公告)日: 2020-12-04
发明(设计)人: 王一君;陈灿;王长振;谢鸿旺 申请(专利权)人: 杭州览众数据科技有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/25;G06F16/26;G06F16/28
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310000 浙江省杭州市滨*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 内存 计算 web 可视化 配置 多数 etl 工具
【说明书】:

发明公开了基于内存计算、web可视化配置的多数据源ETL工具,其特征在于包括数据源层、作业层及目标数仓层,数据源层用于连接客户的数据关系数据库;作业层包括数据源层与目标数仓层的映射配置以及基于spark的数据传输模块;映射配置体现在目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;基于spark的数据传输模块能够使用spark的dataframe写表的自动建表功能,提高数据传输效率;目标数仓为公司研发的使用经典的4层架构标准数仓。本发明全部基于内存实现,性能相比现有工具和方法更高效。本发明通用性好,基本所有数据源通过Java接口都通用。本发明针对公司内部需要针对性研发,适用于拥有标准的大数据产品及后台表结构的大数据服务公司。

技术领域

本发明属于数据处理领域,具体涉及一种基于内存计算、web可视化配置的多数据源ETL工具系统及其应用。

背景技术

作为一家大数据服务公司,拥有标准的大数据产品及后台表结构,但在服务各个客户时,面对的业务系统五花八门、数据库各不相同,在数据对接环节费时费力。

因此,需要一种能够快速实现数据对接的自动化ETL工具来加速这一步骤。

发明内容

为了克服现有技术和方法上的不足,本发明的目的在于一种基于内存计算、web可视化配置的多数据源ETL工具,用于提升数据对接效率。

本发明包括数据源层、作业层及目标数仓层,数据源层用于连接客户的数据关系数据库,可支持常用的关系数据库;作业层包括数据源层与目标数仓层的映射配置以及基于spark的数据传输模块;

映射配置主要体现在目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;基于spark的数据传输模块能够使用 spark的dataframe写表的自动建表功能,提高数据传输效率;

目标数仓为公司研发的标准数仓,该标准数仓使用经典的4层架构,分别为ods、edw、dm和rst,其中edw为按照标准Kimball模型创建的维度表和事实表,无论客户的业务系统什么结构,全部统一到标准edw表,edw表结构可提前初始化,同时也支持自定义目标表;初始化的目标表target_table最后会体现在各个作业的目标映射中。

进一步的,目标数仓中的商品维表的字段包括:款号 Product_code、颜色Color_code、尺码Size_code、尺码顺序号Size_order,均分别来自于业务表。

进一步的,通过本发明工具,能够在web页面上直接拖拽配置出上述映射关系。

进一步的,web页面配置是从左到右依次将相关信息存储到对应表中;反过来从右到左则可以推导出其来源表、来源字段,以及来源表的关联关系,后续的自动生成sql脚本步骤遵循此流程。

数据源信息会保存在datasoure和datasource_tree表, datasoure存储各个数据源的连接信息,datasource_tree则存储全部数据源的表及字段,涵盖库、schema、表、字段4级结构,当被引用时,在web页面中的最左边显示为数据源树,可点击展开;且在 web页面即可读取源表及其字段,并通过拖拽的可视化手段能够形成源表的关联关系以及与目标表的字段映射;连接生成目标表所需要的源数据库,并在源数据库中选择所需的源表;完成字段映射后,自动化生成ETL抽数的ods脚本以及加工dim和fct的数据脚本。

进一步的,可视化手段的实现如下:

将web页面最左侧第1栏中的表拖至第2栏,并选择所需字段,即形成图中的每个图形块,同时将有关联关系的表进行连线,形成由一张主表为核心的星型或是雪花型架构;可视化手段实现的页面配置会保存到job_table作业表、job_table_column作业表字段、job_table_relation作业表关系中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州览众数据科技有限公司,未经杭州览众数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010856829.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top