[发明专利]一种基于云计算的自适应存储分层系统及方法在审
| 申请号: | 202011483292.0 | 申请日: | 2020-12-15 |
| 公开(公告)号: | CN112559459A | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 占绍雄;李扬;韩卿 | 申请(专利权)人: | 跬云(上海)信息科技有限公司 |
| 主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/182;G06F16/18;G06F16/14 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
| 地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 计算 自适应 存储 分层 系统 方法 | ||
本发明提供一种基于云计算的自适应存储分层系统及方法,包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块,根据预定义规则对节点容量进行扩展和收缩、对收集的查询命中的模型以及扫描文件路径进行聚合和排序、对文件进行分层加载和预加载。基于本发明,可以构建出一个高效的OLAP查询执行引擎,应对各类报表系统的复杂OLAP查询,可以显著提高云上OLAP引擎的执行效率。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于云计算的自适应存储分层系统及方法。
背景技术
在云计算环境下,大数据架构体系往往是基于存储与计算分离的架构。将存储与计算分离的好处是可以大大提升用户在云上进行大数据处理的性价比,当一个ETL工作流完成后,数据已经完整保存在云存储上,这时候用户可以直接将不用的机器停止或者删除,释放计算资源,减少云成本。同样,存储与计算分离的情况下,可以根据需求对计算资源进行水平扩展或者动态减少而不会影响到存储,在大数据使用并发量较大时,对集群进行水平扩展来应对高并发请求,同时并发下降后动态减少计算节点来降低使用成本。然而这种架构下也存在缺陷,在计算存储分离情况下,往往计算与存储之间通过网络传输,传输的速率依赖带宽,尽管云基础设施供应商都在不断地提升网络硬件设施,但是相对于本地存储,云环境下存储与计算之间因为带宽传输速率受限,通常会成为数据分析的瓶颈。为了加速云存储的访问,我们一方面可以权衡成本尽可能选择较高带宽的机器来缓解网络传输带来的性能损耗;另一方面,可以将热数据尽量缓存在计算集群中,以达到对热数据查询的快速响应。
当前,在云计算环境下能够支持多云的分布式文件缓存系统主要有Alluxio。该分布式文件缓存系统优点是支持多级存储,同时支持多种公有云,但是其缺点也比较明显。在需要缓存的文件很多时只能进行根据访问情况进行缓存文件置换,且替换算法比较简单,不适宜预计算的场景;不支持弹性伸缩,当我们有更多文件需要缓存时,往往无法自动扩展;另外,在云上基于成本考虑,集群往往会在闲置时停止,在需要时启动,这时候在使用OLAP引擎进行初次查询时,往往会因为无法对模型索引文件动态预热会导致初始一段时间的文件扫描速度很慢。以上是以Alluxio为分布式文件缓存方案所欠缺的。
由于当前OLAP引擎与Alluxio集成方案存在的缺陷,难以支持高并发下的亚秒级查询响应。因此,本发明构思出一种基于云计算的自适应存储分层方案,可以显著提高云上OLAP引擎的执行效率。
发明内容
有鉴于此,本公开提供一种基于云计算的自适应存储分层系统及方法,技术方案如下:
一方面,本发明提供了一种基于云计算的自适应存储分层系统,包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块,数据节点管理模块用于收集存储集群运行情况,按照预定义的规则进行水平扩展和收缩,元数据管理模块用于收集OLAP查询引擎的查询命中的模型以及扫描的文件路径,并对这些数据进行聚合和排序,自适应存储分层模块根据元数据管理模块维护的模型命中次数以及文件扫描次数的排行列表来对文件进行分层加载以及预加载,预聚合查询路由模块根据模型以及索引在元数据库中的缓存情况自动切换查询存储地址。
进一步地,所述的数据节点管理模块收集的存储集群运行情况数据包括:存储集群各节点的容量、存储集群各节点已使用容量、存储集群各节点缓存文件及其大小。
进一步地,所述数据节点管理模块的集群包括存储集群和计算集群,存储集群主要用于存储数据,计算集群主要用于提供计算功能,存储集群和计算集群均具备缓存功能。
进一步地,所述的存储集群包括:内存层MEN、固态硬盘层SSD、硬盘层HDD存储。
进一步地,所述的数据节点管理模块的扩展和收缩的规则是:当存储集群内缓存容量小于实际计算集群所需容量的20%时,对存储集群进行水平扩展;当存储集群内数据过期或不再使用时,优化数据节点配置,对存储集群进行收缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于跬云(上海)信息科技有限公司,未经跬云(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483292.0/2.html,转载请声明来源钻瓜专利网。





