[发明专利]基于HIVE的拉链式模型数据汇聚方法及系统在审

专利信息
申请号: 202111289420.2 申请日: 2021-11-02
公开(公告)号: CN114238460A 公开(公告)日: 2022-03-25
发明(设计)人: 时敏 申请(专利权)人: 北京思特奇信息技术股份有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/215;G06F16/23
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 林聪源
地址: 100086 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hive 链式 模型 数据 汇聚 方法 系统
【说明书】:

发明公开了一种基于HIVE的拉链式模型数据汇聚方法及系统,应用于数据汇聚技术领域,方法包括:对接业务系统,并抽取原始数据;对原始数据进行清洗和标准化,以确定标准接口模型;由目标结果模型中获取当前有效数据,与标准接口模型内关联,确定待更新数据模型;将标准接口模型左外关联待更新数据模型,剔除主键重复的数据以生成增量数据,并插入至目标结果模型中;将标准接口模型内关联待更新数据模型,将全字段匹配的数据删除,并对待更新数据模型进行更新。通过本发明的技术方案,避免了文件级操作,实现了数据拉链式存储,能够保留所有数据变化轨迹,同时能够降低数据冗余度,模板化的开发方式降低了开发工作量和运维难度。

技术领域

本发明涉及数据汇聚技术领域,尤其涉及一种基于HIVE的拉链式模型数据汇聚方法以及一种基于HIVE的拉链式模型数据汇聚系统。

背景技术

在运营商行业,现已全面推动去O、去MPP等技术场景,引入大数据技术做数据存储、计算和应用。根据数据时效性,按照业务场景划分,主要分实时业务、准实时业务以及离线业务三个场景。不管是哪种业务场景,都要按照一定的频率周期对数据进行操作,其中离线业务场景在大数据技术背景下,普遍采用Hive来替代Oracle,作为数据主要存储计算的技术方案。但Hive是基于HDFS(Hadoop Distributed File System,分布式文件系统)文件存储方式,对update、delete支持不太友好,同时也不建议在hive中进行更新、删除操作。

发明内容

针对上述问题,本发明提供了一种基于HIVE的拉链式模型数据汇聚方法及系统,通过数据的标准化,根据标准接口模型与目标结果模型之间的关联,以主键为依据对数据进行插入、删除和更新操作,只需要根据模型字段和属性进行无逻辑开发,从而避免文件级的更新和删除操作,实现历史数据拉链式存储,能够保留所有数据变化轨迹,同时能够降低数据冗余度,模板化的开发方式降低了开发工作量和运维难度,解决了在HIVE环境中的数据操作问题。

为实现上述目的,本发明提供了一种基于HIVE的拉链式模型数据汇聚方法,包括:

对接业务系统,并由所述业务系统中抽取原始数据;

对所述原始数据进行清洗和标准化,以确定标准接口模型;

由目标结果模型中获取当前有效数据,通过所述有效数据的主键与所述标准接口模型内关联,确定所述目标结果模型中的待更新数据模型;

将所述标准接口模型左外关联所述待更新数据模型,剔除主键重复的数据以生成增量数据,并将所述增量数据直接插入至所述目标结果模型中;

将所述标准接口模型内关联所述待更新数据模型,将原始数据中全字段匹配的数据删除;

将所述待更新数据模型内关联所述标准接口模型,并采用所述标准接口模型的数据对所述待更新数据模型进行更新,实现所述目标结果模型的数据汇聚。

在上述技术方案中,优选地,基于HIVE的拉链式模型数据汇聚方法还包括:在对所述待更新数据模型的数据更新完成后,针对相同主键更新前的数据的数据状态日期进行更新。

在上述技术方案中,优选地,所述标准接口模型与所述业务系统中的数据模型一致,所述标准接口模型用于将所述业务系统中抽取的原始数据复制至所述目标结果模型中。

在上述技术方案中,优选地,采用ETL(Extract-Transform-Load,抽取-转换-加载)工具实现所述业务系统中原始数据的抽取。

在上述技术方案中,优选地,所述对所述原始数据进行清洗和标准化具体包括:

将所述原始数据中的无关字符删除,实现对所述原始数据的清洗;

将所述原始数据中相应的字段名称和字段属性与所述目标结果模型保持一致,实现对所述原始数据的标准化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111289420.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top