[发明专利]一种CDC数据分发方法和装置无效
申请号: | 201210076928.9 | 申请日: | 2012-03-21 |
公开(公告)号: | CN102663020A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 官辉;文彦峰;齐科军;李俊;冯志强 | 申请(专利权)人: | 北京英孚斯迈特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100083 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 cdc 数据 分发 方法 装置 | ||
技术领域
本发明涉及数据仓库领域,特别涉及数据仓库领域的数据整合。
背景技术
CDC数据分发中心系统是专门针对数据仓库领域做数据整合的一个产品,它是ELT模式的,而不是ETL模式。ELT就是先抽取再装载最后清洗转换;ETL就是先抽取再清洗最后装载,目前该领域大部分还是ETL模式,而IS/BI-CDC数据分发中心系统是ELT模式的,通过快速抽取和装载数据,从而在数据仓库中进行数据转换工作。它主要是用来做数据的抽取和装载,抽取是把数据从业务系统的数据库导出成文本文件;装载是把抽取出来的文本文件导入到数据仓库中进行清洗转换处理。
现有技术对数据抽取是通过数据库的JDBC,ODBC接口抽取,抽取效率不高;处理逻辑复杂,体系结构庞大,不轻量,安装维护麻烦;Oracle数据库只能单个进程抽取,抽取速度不高;不支持分布式抽取和装载。
发明内容
本发明所要解决的技术问题是提供一种图形化灵活开放的数据抽取快、完全基于源数据API实现、体系架构简单、支持分布式并行抽取装载的CDC数据分发方法。
本发明解决上述技术问题的技术方案如下:一种CDC数据分发方法,它包括以下步骤:
①配置抽取信息:通过配置界面配置用于抽取数据库中数据的抽取信息;
②抽取进程:读取配置的抽取信息,把源数据库中的数据从与业务相关的系统的数据库中抽取出来生成文本文件;
③配置装载信息:通过配置界面配置用于装载数据库中数据的装载信息;
④装载进程:读取所述装载信息,并把抽取进程导出的文本文件装载到用于存放抽取的文本文件的目标数据库中①配置抽取信息:配置抽取进程所需要的抽取信息;
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述抽取进程包括Mysql抽取、Sql server抽取、greenplum抽取、Oracle抽取、db2抽取和/或组抽取。
进一步,所述其中,所述Mysql抽取包括以下步骤:
①Mysql抽取进程向Mysql数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Mysql连接的时间窗口内,③如果在时间窗口范围内,连接Mysql数据库,利用Mysql API接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;
所述Sql server抽取包括以下步骤:
①Sql server抽取进程向Sql server数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Sql server连接的时间窗口内,③如果在时间窗口范围内,连接Sql server数据库,利用freetds API接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;
所述greenplum抽取包括以下步骤:
①greenplum抽取进程向greenplum分布式数据仓库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在greenplum连接的时间窗口内,③如果在时间窗口范围内,连接greenplum数据库,利用copy命令接口将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;
所述Oracle抽取包括以下步骤:
①Oracle抽取进程向Oracle数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在Oracle连接的时间窗口内,③如果在时间窗口范围内,连接Oracle数据库,通过记录的数据块地址,抽取进程对一张数据源表进行抽取,最终将数据导出生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;
所述db2抽取包括以下步骤:
①db2抽取进程向db2数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在db2连接的时间窗口内,③如果在时间窗口范围内,连接db2数据库,在db2多分区数据中自动在所有分区开启多个对应的分区抽取进程,分布式导出数据生成文本文件,④如果不在时间窗口范围内,直接结束抽取工作;
所述组抽取包括以下步骤:
①组抽取进程向两个或两个以上相同或者不同类型的数据库发起一个连接,②读取配置的抽取信息,判断当时系统时间是否在组抽取下抽取连接的时间窗口内,③如果在时间窗口范围内,连接相对应的数据库,当组抽取下所有的抽取完成后,整个组抽取结束,否则为失败,④如果不在时间窗口范围内,直接结束抽取工作。
进一步,所述装载数据进程包括数据装载、db2装载、Oracle装载、和/或greenplum装载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英孚斯迈特信息技术有限公司,未经北京英孚斯迈特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210076928.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种重油及废油气化处理系统
- 下一篇:一种油砂裂解装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置