[发明专利]基于HIVE的拉链式模型数据汇聚方法及系统在审
申请号: | 202111289420.2 | 申请日: | 2021-11-02 |
公开(公告)号: | CN114238460A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 时敏 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215;G06F16/23 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 林聪源 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hive 链式 模型 数据 汇聚 方法 系统 | ||
1.一种基于HIVE的拉链式模型数据汇聚方法,其特征在于,包括:
对接业务系统,并由所述业务系统中抽取原始数据;
对所述原始数据进行清洗和标准化,以确定标准接口模型;
由目标结果模型中获取当前有效数据,通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型;
将所述标准接口模型左外关联所述待更新数据模型,剔除主键重复的数据以生成增量数据,并将所述增量数据直接插入至所述目标结果模型中;
将所述标准接口模型内关联所述待更新数据模型,将原始数据中全字段匹配的数据删除;
将所述待更新数据模型内关联所述标准接口模型,并采用所述标准接口模型的数据对所述待更新数据模型进行更新,实现所述目标结果模型的数据汇聚。
2.根据权利要求1所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,还包括:
在对所述待更新数据模型的数据更新完成后,针对相同主键更新前的数据的数据状态日期进行更新。
3.根据权利要求1或2所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,所述标准接口模型与所述业务系统中的数据模型一致,所述标准接口模型用于将所述业务系统中抽取的原始数据复制至所述目标结果模型中。
4.根据权利要求3所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,采用ETL工具实现所述业务系统中原始数据的抽取。
5.根据权利要求1所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,所述对所述原始数据进行清洗和标准化具体包括:
将所述原始数据中的无关字符删除,实现对所述原始数据的清洗;
将所述原始数据中相应的字段名称和字段属性与所述目标结果模型保持一致,实现对所述原始数据的标准化。
6.根据权利要求1所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,所述通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型具体包括:
通过所述目标结果模型与所述标准接口模型的内关联,对比所述有效数据与所述标准接口模型的主键数据,以所述目标结果模型中主键相同的对应数据作为待更新数据模型。
7.一种基于HIVE的拉链式模型数据汇聚系统,应用如权利要求1至6中任一项所述的基于HIVE的拉链式模型数据汇聚方法,其特征在于,包括:
数据抽取模块,用于对接业务系统,并由所述业务系统中抽取原始数据;
数据处理模块,用于对所述原始数据进行清洗和标准化,以确定标准接口模型;
更新确认模块,用于从目标结果模型中获取当前有效数据,通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型;
增量插入模块,用于将所述标准接口模型左外关联所述待更新数据模型,剔除主键重复的数据以生成增量数据,并将所述增量数据直接插入至所述目标结果模型中;
数据舍弃模块,用于将所述标准接口模型内关联所述待更新数据模型,并将原始数据中全字段匹配的数据删除;
数据更新模块,用于将所述待更新数据模型内关联所述标准接口模型,并采用所述标准接口模型的数据对所述待更新数据模型进行更新,实现所述目标结果模型的数据汇聚。
8.根据权利要求7所述的基于HIVE的拉链式模型数据汇聚系统,其特征在于,还包括:
日期更新模块,用于在对所述待更新数据模型的数据更新完成后,针对相同主键更新前的数据的数据状态日期进行更新。
9.根据权利要求7所述的基于HIVE的拉链式模型数据汇聚系统,其特征在于,所述数据处理模块具体用于:
将所述原始数据中的无关字符删除,实现对所述原始数据的清洗;
将所述原始数据中相应的字段名称和字段属性与所述目标结果模型保持一致,实现对所述原始数据的标准化。
10.根据权利要求7所述的基于HIVE的拉链式模型数据汇聚系统,其特征在于,所述更新确认模块具体用于:
通过所述目标结果模型与所述标准接口模型的内关联,对比所述有效数据与所述标准接口模型的主键数据,以所述目标结果模型中主键相同的对应数据作为待更新数据模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111289420.2/1.html,转载请声明来源钻瓜专利网。