[发明专利]用于实时数据ETL系统的记忆式调度方法有效
| 申请号: | 200910028104.2 | 申请日: | 2009-01-09 |
| 公开(公告)号: | CN101551811A | 公开(公告)日: | 2009-10-07 |
| 发明(设计)人: | 常维;余志刚;刘国祥;卞国震;张峰;刘树权;沈鹏程;兰清 | 申请(专利权)人: | 南京联创科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京天翼专利代理有限责任公司 | 代理人: | 汤志武;王鹏翔 |
| 地址: | 210013江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 实时 数据 etl 系统 记忆 调度 方法 | ||
一、技术领域
本技术发明方案应用于实时数据ETL系统的调度,采用记忆式调度方法(有状态调度方法)用于解决实时数据ETL系统中被调程序疲于处理调度信息的问题,从而使得被调程序可以专注于自身的业务逻辑。
二、背景技术
ETL(Extraction-Transformation-Loading)即数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析的数据。目前现有的ETL调度方法都是非记忆、无状态的调度方法,如采用固定时间点进行调度(固定周期),比如每天晚上23:00执行某个程序,两次调度之间在调度层面没有任何关联,任务状态的判断和时间周期的选择完全由被调程序的程序逻辑自行完成,这样既增加了被调程序的负担,又无法使被调程序专注于自己的业务逻辑。
现有ETL调度方法的特点如下:
周期闭环抽取问题:目前的ETL调度方法都是非记忆和无状态的,只能解决固定时间点(固定周期)的ETL抽取问题,而无法解决ETL系统中的时间戳抽取(周期闭环)问题。
数据重抽问题:目前的ETL调度方法无法有效解决自动进行数据重抽的问题。
调度时间滞后的任务追赶问题:ETL任务由于某种原因被暂停或执行失败而在时间上滞后预定计划,在该任务重新恢复正常运行时,不能自动根据时间周期的特点进行ETL任务的自动追赶。
自我评估问题:目前的ETL调度程序没有根据ETL的特点进行自我运行情况的评估。
三、发明内容
本发明目的是解决传统ETL调度方法存在的问题,通过采用记忆式、有状态的调度方法,调度引擎能够记住每个任务每次运行的时间周期、状态、历时,从而可以在调度层面优化调度策略,提高调度性能,使得被调程序专注于自己的业务逻辑,从而解决周期闭环抽取问题、数据重抽问题、调度时间滞后的任务追赶问题和自我评估问题。
本发明技术方案是:用于实时数据ETL系统的记忆式调度方法,ETL调度主程序按照预先设定的顺序执行某个任务,执行的时候把lscycle最近成功数据周期、curcycle当前处理数据周期、endcycle处理截止数据周期等由调度引擎记忆下来的关键信息传给被调程序,被调程序执行完成之后,由调度引擎记录并保存更新后的调度信息;在数据重抽中,通过记忆式调度方法自动对其中的某些任务和某些周期进行自动重抽;
ETL数据分类
根据ETL数据的变化特点,分成固定周期数据和周期闭环数据:
固定周期:是指在分析周期内数据是静止的数据;
周期闭环:指抽取特定周期内数据是变化的、取最后一次变化的记录;该周期是不固定的,其时间范围为上次执行抽取的时间到本次执行抽取发生的时间;
记忆式调度方法
假定调度流程Wf1,任务B1∈wf1,则
Wf1的状态={wstate状态、
lscycle最近成功数据周期、
endcycle处理截止数据周期、
curcycle当前处理数据周期}
B1的状态包括={bstate状态、
succnum成功运行次数、
succtotal成功运行总历时、
succavg成功运行平均历时}
周期闭环的记忆式调度方法:
某个周期闭环数据集A,A的起始抽取时间是Φ,每隔T0分钟抽取一次,则数据集A的抽取时间集=[Φ,Φ1)+[Φ1,Φ2)+[Φ2,Φ3)+…+[Φn-1,Φn)+…
其中,“[Φn”表示≥Φn,“Φn+1)”表示<Φn+1
Φn表示每隔T0分钟去抽取数据集A的当时的时间点,一般情况下等于Φ+T0*n(n从1开始,表示从Φ开始之后的第n个T0分钟);
因此,对于周期闭环当中的某个[Φn,Φn+1):
lscycle=[Φn-2,Φn-1)
curcycle=[Φn-1,Φn)
endcycle=[Φn-1,Φn)
这几个关键性的信息被调度引擎记忆下来,从而不需要被调程序进行处理,由调度引擎自动告诉被调程序执行以下时间序列的任务:
[Φn-1,Φn)
同时,wstate、bstate、succnum、succtotal、succavg也被调度引擎记忆下来。
固定周期的记忆式调度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京联创科技股份有限公司,未经南京联创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910028104.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





