[发明专利]一种应对大规模数据多维聚合实时查询的数据处理平台在审
| 申请号: | 201810852204.6 | 申请日: | 2018-07-30 |
| 公开(公告)号: | CN110781210A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 于洋;李鹏;高经郡;郭振强 | 申请(专利权)人: | 北京科杰信息技术有限公司 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/22;G06F16/2453 |
| 代理公司: | 11738 北京智行阳光知识产权代理事务所(普通合伙) | 代理人: | 黄锦阳 |
| 地址: | 100101 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 系统管理模块 集群监控 可视化操作界面 数据处理平台 大规模数据 服务器集群 有效的管理 预处理方式 管理 查询效率 多维分析 高实时性 内存计算 任务监控 时间降低 实时查询 数据查询 数据服务 系统管理 项目管理 项目权限 预计算 硬盘 多维 集群 聚合 角色 响应 帮助 开放 学习 | ||
本发明公开了一种应对大规模数据多维聚合实时查询的数据处理平台,包括数据服务首页、数据查询、数据处理以及系统管理,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,本发明提供可视化操作界面,降低操作难度与学习成本,使多维分析查询效率大大提升,响应时间降低至毫秒级;同时因为数据的计算是通过预处理方式进行处理,数据的计算使用硬盘计算,相对于spark使用内存计算,成本更低,且预计算模式不追求计算的高实时性,用户可以根据需求降低服务器集群成本;提供任务监控和集群监控功能,可以帮助用户有效的管理集群和数据处理任务。
技术领域
本发明涉及到数据处理技术领域,特别涉及一种应对大规模数据多维聚合实时查询的数据处理平台。
背景技术
随着大数据时代的到来,各种信息量呈爆炸式增长,为了能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,企业需要通过对数据进行多维聚合分析,但是从大规模数据集中进行多维聚合分析的实时性成为一道技术瓶颈。
现有技术中多使用spark来进行对大数据量的多维聚合分析,但是其局限性导致了一些特定场景的不适用性。例如数据量级在TB级别以上,聚合维度较多且需要实时响应查询结果的场景下,spark的性能急剧下降,无法满足场景需求。
常见的多维聚合分析场景下,技术多使用sparksql引擎进行查询,其主要的数据解析过程是将数据从HDFS中读取到内存中,对数据采用内存列存储,既 spark中的dataframe,通过内置的sql解析器解析sql后在内存中对读入的数据进行多维的解析,然后在将解析后的数据进行输出。在小规模的数据量级下,sparksql还是能够快速的响应实时的查询需求,但是在大规模数据集的情况下,对于集群的内存使用成倍增加,响应时间同样成倍增加,同时查询维度的增加也会对响应时间造成影响,维度越多,响应越慢。
大数据量下多维度的实时聚合查询目前的多使用spark等分布式查询引擎,但是查询效率很低,往往达不到实时甚至准实时,更无法为更多的分析平台提供实时的查询数据。
现有技术缺陷:一、查询效率低,响应时长会根据查询维度和数据量的增加而成倍递增;二、集群成本高;三、需要开发人员具有很高的sql开发能力,学习成本高;四、不便于管理和监控。
发明内容
发明的目的在于提供一种应对大规模数据多维聚合实时查询的数据处理平台,,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种应对大规模数据多维聚合实时查询的数据处理平台,包括数据服务首页、数据查询、数据处理以及系统管理四个模块,其中平台角色分为普通人员和管理人员,其中系统管理模块只针对管理人员开放,数据处理分为项目管理和cube管理,系统管理模块分为集群监控和项目权限管理,其中,
数据服务首页:汇总平台上相关cube以及任务数据,提供任务总数,cube 总数以及每日新增cube数量,可以通过图表形式查看每日成功或者失败的计算任务或者cube;
数据查询:可视化的SQL提交界面,用户可以在查询界面内通过编写sql 的方式预览需要处理的数据表信息;
项目管理:可以新增或编辑项目,并通过项目的各种基本信息进行项目的查询,项目需要指定有管理此项目权限的用户,项目中需要对数据表进行绑定,也就是当前项目需要用到哪些表信息,roc还会针对已加载的表进行检测,当hive中表进行更改会做出相应的提醒;
cube管理:可以新增并编辑cube,并可以根据cube信息进行查询,提供 cube调度功能按钮,可以将cube添加到任务队列中,按照周期定时执行,新建cube中需要对指标字段进行指定计算方式,在构建cube中,可以根据数据内容进行不同的优化,包括必要维度,层级维度,衍生维度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科杰信息技术有限公司,未经北京科杰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810852204.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据快速查询的方法及装置
- 下一篇:一种数据的解析方法及装置





