[发明专利]一种数据处理方法、装置及存储介质有效
申请号: | 201910973133.X | 申请日: | 2019-10-14 |
公开(公告)号: | CN112732704B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 杨文峰 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2453;G06F16/2455 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李洋;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 存储 介质 | ||
本申请实施例公开了一种数据处理方法,所述方法包括:基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集(RDD);基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。本申请还公开了一种数据处理装置及存储介质。通过本申请实施例能够缩小数据处理周期,提高数据查询效率。
技术领域
本申请涉及数据处理技术,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
现有技术中,对大数据进行分析时,首先技术人员要使用专业工具从数据源中抽取出所需的数据,经过数据的转换和清洗等,将数据加载到一个数据仓库中,然后建立分析数据模型,用户才能够根据模型进行数据分析。由于无法直接对各类数据源进行查询,也不能直接分析数据,造成数据处理周期过长,降低数据查询效率。
发明内容
为解决现有存在的技术问题,本申请实施例提供了一种数据处理方法、装置及存储介质,能至少解决现有技术中存在的上述问题。
本申请实施例提供一种数据处理方法,所述方法包括:
基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集(Resilient Distributed Datasets,RDD);
基于与所述数据源对应的RDD生成第一注册临时表;
构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。
上述方案中,所述构建至少两个第一注册临时表之间的关联关系之后,所述方法还包括:
基于所述第一数据模型获取数据查询的维度和数据模型的度量;
将所述第一注册临时表映射为数据库表;
基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。
上述方案中,所述生成第一数据模型之后,所述方法还包括:
基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RDD;
基于所述与所述关联关系对应的数据的RDD,生成第二注册临时表;
接收第一查询参数;
基于所述第一查询参数和所述第二注册临时表,获得第一数据查询结果。
上述方案中,所述生成第一数据模型之后,所述方法还包括:
基于所述数据立方,确定至少一个第二数据查询结果;
存储所述至少一个第二数据查询结果。
上述方案中,所述存储所述第二数据查询结果之后,所述方法还包括:
接收第二查询参数;
在所述至少一个第二数据查询结果中,确定与所述第二查询参数对应的目标查询结果。
上述方案中,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:
获取逗号分隔值(Comma Separated Values,CSV)文件数据源中的有效数据;
确定所述CSV文件的分隔符;
基于所述CSV文件的分隔符和所述有效数据的属性,获取第一数据;
基于所述第一数据,形成与所述CSV文件数据源对应的RDD。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973133.X/2.html,转载请声明来源钻瓜专利网。