[发明专利]一种CDC数据分发方法和装置无效

专利信息
申请号: 201210076928.9 申请日: 2012-03-21
公开(公告)号: CN102663020A 公开(公告)日: 2012-09-12
发明(设计)人: 官辉;文彦峰;齐科军;李俊;冯志强 申请(专利权)人: 北京英孚斯迈特信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
地址: 100083 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 cdc 数据 分发 方法 装置
【说明书】:

技术领域

发明涉及数据仓库领域,特别涉及数据仓库领域的数据整合。

背景技术

CDC数据分发中心系统是专门针对数据仓库领域做数据整合的一个产品,它是ELT模式的,而不是ETL模式。ELT就是先抽取再装载最后清洗转换;ETL就是先抽取再清洗最后装载,目前该领域大部分还是ETL模式,而IS/BI-CDC数据分发中心系统是ELT模式的,通过快速抽取和装载数据,从而在数据仓库中进行数据转换工作。它主要是用来做数据的抽取和装载,抽取是把数据从业务系统的数据库导出成文本文件;装载是把抽取出来的文本文件导入到数据仓库中进行清洗转换处理。

现有技术对数据抽取是通过数据库的JDBC,ODBC接口抽取,抽取效率不高;处理逻辑复杂,体系结构庞大,不轻量,安装维护麻烦;Oracle数据库只能单个进程抽取,抽取速度不高;不支持分布式抽取和装载。

发明内容

本发明所要解决的技术问题是提供一种图形化灵活开放的数据抽取快、完全基于源数据API实现、体系架构简单、支持分布式并行抽取装载的CDC数据分发方法。

本发明解决上述技术问题的技术方案如下:一种CDC数据分发方法,它包括以下步骤:

①配置抽取信息:通过配置界面配置用于抽取数据库中数据的抽取信息;

②抽取进程:读取配置的抽取信息,把源数据库中的数据从与业务相关的系统的数据库中抽取出来生成文本文件;

③配置装载信息:通过配置界面配置用于装载数据库中数据的装载信息;

④装载进程:读取所述装载信息,并把抽取进程导出的文本文件装载到用于存放抽取的文本文件的目标数据库中①配置抽取信息:配置抽取进程所需要的抽取信息;

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述抽取进程包括Mysql抽取、Sql server抽取、greenplum抽取、Oracle抽取、db2抽取和/或组抽取。

进一步,所述其中,所述Mysql抽取包括以下步骤:

①Mysql抽取进程向Mysql数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Mysql连接的时间窗口内,③如果在时间窗口范围内,连接Mysql数据库,利用Mysql API接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;

所述Sql server抽取包括以下步骤:

①Sql server抽取进程向Sql server数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Sql server连接的时间窗口内,③如果在时间窗口范围内,连接Sql server数据库,利用freetds API接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;

所述greenplum抽取包括以下步骤:

①greenplum抽取进程向greenplum分布式数据仓库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在greenplum连接的时间窗口内,③如果在时间窗口范围内,连接greenplum数据库,利用copy命令接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;

所述Oracle抽取包括以下步骤:

①Oracle抽取进程向Oracle数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Oracle连接的时间窗口内,③如果在时间窗口范围内,连接Oracle数据库,通过记录的数据块地址,抽取进程对一张数据源表进行抽取,最终将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;

所述db2抽取包括以下步骤:

①db2抽取进程向db2数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在db2连接的时间窗口内,③如果在时间窗口范围内,连接db2数据库,在db2多分区数据中自动在所有分区开启多个对应的分区抽取进程,分布式导出数据生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;

所述组抽取包括以下步骤:

①组抽取进程向两个或两个以上相同或者不同类型的数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在组抽取下抽取连接的时间窗口内,③如果在时间窗口范围内,连接相对应的数据库,当组抽取下所有的抽取完成后,整个组抽取结束,否则为失败,④如果不在时间窗口范围内,直接结束抽取工作。

进一步,所述装载数据进程包括数据装载、db2装载、Oracle装载、和/或greenplum装载。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英孚斯迈特信息技术有限公司,未经北京英孚斯迈特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210076928.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top