[发明专利]一种基于多维度业务时间的CDC数据采集方法在审
| 申请号: | 201911266392.5 | 申请日: | 2019-12-11 |
| 公开(公告)号: | CN111026760A | 公开(公告)日: | 2020-04-17 |
| 发明(设计)人: | 施甘图;庭治宏;曾静涛 | 申请(专利权)人: | 宏图智能物流股份有限公司;拉货宝网络科技有限责任公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/2458;G06F16/28 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 吴彦峰 |
| 地址: | 646000 四川省泸州市江*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多维 业务 时间 cdc 数据 采集 方法 | ||
1.一种基于多维度业务时间的CDC数据采集方法,其特征在于,包括以下步骤:
1.根据运单ID,从多个原始表中取出和当前运单相关的时间戳,形成时间戳列表;
2.用一个特定的时间替换空值;
3.对时间戳列表进行排序,获取最大时间戳T0;
4.判断最大时间戳T0是否在CDC周期上下限之间;
5.把当天生成的变动数据存放到Delta表中,并分门别类打上不同的原始操作标志;
6.Delta数据和已有的存量数据快照做一个基于ID的匹配,即通过唯一键来判定是否为同一笔运单;
7.新增数据在历史存量中不存在,直接入库;
8.更新数据即出现在Delta中,也存在历史存量中,采用覆盖更新的模式入库;
9.删除数据的操作,需要用到外连接outer join。
2.根据权利要求1所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤1中,时间戳包括成交时间,起运时间,到达时间,签收时间,支付时间。
3.根据权利要求1所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤2中,在时间戳会出现空值时,将所有空值进行替换。
4.根据权利要求1所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤4中,对CDC设置周期上下限,CDC周期的上下限为ETL周期上下限。
5.根据权利要求1所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤5中,在删除数据上加上特殊标识,删除数据在原始系统中采用逻辑删除的模式,删除数据的特殊标识为逻辑删除标志。
6.根据权利要求1所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤9中,对原始库进行操作标志,提取Delta中的被删除数据;将历史存量快照与被删除数据在运单ID上做左外连接(Left Outer Join)。
7.根据权利要求6所述的一种基于多维度业务时间的CDC数据采集方法,其特征在于:在步骤9中,当能够全部join到双方的数据时,选择对应记录为NULL的数据,保留数据,并按常规流程进行Merge并打标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏图智能物流股份有限公司;拉货宝网络科技有限责任公司,未经宏图智能物流股份有限公司;拉货宝网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911266392.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型训练方法和系统
- 下一篇:一种ZnGaO紫外探测器及其制备方法





