[发明专利]一种数据处理方法、装置及存储介质有效

申请号：	201910973133.X	申请日：	2019-10-14
公开（公告）号：	CN112732704B	公开（公告）日：	2022-12-13
发明（设计）人：	杨文峰	申请（专利权）人：	中移(苏州)软件技术有限公司;中国移动通信集团有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2453;G06F16/2455
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	李洋;张颖玲
地址：	215163 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种数据处理方法，所述方法包括：基于Spark获取至少一种数据源的数据，形成与所述数据源对应的弹性分布式数据集(RDD)；基于与所述数据源对应的RDD生成第一注册临时表；构建至少两个第一注册临时表之间的关联关系，生成第一数据模型；所述第一数据模型用于数据查询。本申请还公开了一种数据处理装置及存储介质。通过本申请实施例能够缩小数据处理周期，提高数据查询效率。

技术领域

本申请涉及数据处理技术，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

现有技术中，对大数据进行分析时，首先技术人员要使用专业工具从数据源中抽取出所需的数据，经过数据的转换和清洗等，将数据加载到一个数据仓库中，然后建立分析数据模型，用户才能够根据模型进行数据分析。由于无法直接对各类数据源进行查询，也不能直接分析数据，造成数据处理周期过长，降低数据查询效率。

发明内容

为解决现有存在的技术问题，本申请实施例提供了一种数据处理方法、装置及存储介质，能至少解决现有技术中存在的上述问题。

本申请实施例提供一种数据处理方法，所述方法包括：

基于Spark获取至少一种数据源的数据，形成与所述数据源对应的弹性分布式数据集（Resilient Distributed Datasets，RDD）；

基于与所述数据源对应的RDD生成第一注册临时表；

构建至少两个第一注册临时表之间的关联关系，生成第一数据模型；所述第一数据模型用于数据查询。

上述方案中，所述构建至少两个第一注册临时表之间的关联关系之后，所述方法还包括：

基于所述第一数据模型获取数据查询的维度和数据模型的度量；