[发明专利]一种大数据平台数据加载转化算法在审
申请号: | 201810288789.3 | 申请日: | 2018-04-03 |
公开(公告)号: | CN108763259A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 田德惠;李烨 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 徐金琼 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大数据平台数据历史拉链加载转化算法将源数据通过统一编码转换、业务转换插入最终的目标表并记录源数据的历史变化进程。实现了将数据仓库从传统的DBMS向Hadoop平台平稳过渡,从原来的UPDATE‑INSERT操作转换为DROP PARTITON‑INSERT来适应大数据平台技术特性,扬长避短使用了大数据平台对分区操作的高性能技术特点,在清洗、转化数据方面的性能优于传统数据仓库,在整体的跑批效率都优于传统的MPP的数据仓库。 | ||
搜索关键词: | 大数据 数据仓库 平台数据 传统的 加载 算法 转化 性能优于传统 高性能技术 操作转换 分区操作 历史变化 平台技术 统一编码 业务转换 记录源 目标表 源数据 拉链 清洗 转换 进程 | ||
【主权项】:
1.一种大数据平台数据加载转化算法,其特征在于,包括如下步骤:S1:编写抽取的业务逻辑将结果放入n表;S2:计算有效全量通过start_dt<=$txdate and end_dt>$txdate将结果放入o表;S3:计算出新增、修改、删除的数据:o表FULL JOIN n表通过主键字段关联。在SELECT字段时COALESCE(n.字段,o.字段)对字段进行去空处理。其关键是对start_dt与end_dt的计算,start_dt的赋值:判断n.主键如果为NULL值则取o.start_dt否则取当前的跑批日期$txdate,表示该条数据是新增数据。end_dt的赋值:判断如果n.主键为NULL值则取当前的跑批日期$txdate关链该条数据,否则取3000‑12‑31开链该条数据。将结果放入new_ad表;S4:计算出o表表变化的数据:o表LEFT JOIN new_ad表通过主键字段关联,SELECT计是取o的字段。start_dt的赋值:直取取o.start_dt;end_dt的赋值判断如果n.主键为NULL则取3000‑12‑31否则取$tx_date。将结果数据放入o ld_a l;S5:理清PDM目标拉链表的数据ALTER TABLE DROP PARTITON;S6:待清理完成S5步完成后将new_ad表与old_al表的数据插入目标拉链表。参数说明:$txdate表示运行的批量日期。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810288789.3/,转载请声明来源钻瓜专利网。