[发明专利]一种基于SSD和HDD混合存储系统的RDD持久化方法有效

专利信息
申请号: 201710358093.9 申请日: 2017-05-19
公开(公告)号: CN107193494B 公开(公告)日: 2020-05-12
发明(设计)人: 陆克中;黄泽成;毛睿;廖好;朱金彬;隋秀峰 申请(专利权)人: 深圳大学
主分类号: G06F3/06 分类号: G06F3/06;G06F16/182;G06F11/30;G06F11/32
代理公司: 深圳市恒申知识产权事务所(普通合伙) 44312 代理人: 王利彬
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ssd hdd 混合 存储系统 rdd 持久 方法
【说明书】:

发明提供一种基于SSD和HDD混合存储系统的RDD持久化方法,包括:RDD模块将RDD模块中的块标识和RDD模块中数据的预设持久化级别传递给块管理器;所述磁盘块管理器将所述预设持久化级别传递给设备适配器;所述设备适配器接收数据的预设持久化级别和读取配置文件中两个目录管理变量,根据数据的预设持久化级别进行预设持久化级别和对应目录管理变量中临时文件目录匹配,并将匹配得到的临时文件目录返回给所述磁盘块管理器;所述磁盘块管理器根据所述块标识得到文件名,并根据匹配得到的临时文件目录和所述文件名得到数据存储地址,并将所述数据存储地址返回至所述块管理器;所述块管理器根据所述数据存储地址对RDD模块中的数据在SSD或HDD中进行存储。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于SSD和HDD混合存储系统的RDD持久化方法。

背景技术

在现有的大数据时代,面对海量数据,如何在有效的时间内管理、分析并提取有价值的信息,成为人们亟需解决的问题。然而,无论是规模、种类还是结构,大数据对人们驾驭数据的能力提出了巨大挑战。

Spark是目前高效且在产业界被广泛使用的大数据计算框架,是通用、快速的大规模数据处理引擎。首先,Spark提供了统一的解决方案,可以用于交互式查询、实时流处理、机器学习等复杂任务;其次,Spark通过弹性分布式数据集(Resilient DistributedDataset,简称RDD)划分阶段和任务,通过高效的有向无环图(Directed Acyclic Graph,简称DAG)执行引擎优化子任务执行顺序,并通过基于内存的计算大幅提升数据处理效率;第三,Spark数据管理依赖于HDFS、Hive等多种数据源,并且集群模式下的Spark实现了横向扩展,支持大规模数据的处理。RDD是Spark区别于其他大数据计算框架最重要的概念,它是一种具有高度容错机制的、只读的分布式数据集。Spark应用程序中,每一个RDD会被分成多个分区,且Spark以分区为单位对RDD进行各种操作。持久化(Persist)RDD分区数据到内存或硬盘实现了对计算任务中间结果的缓存,以供后续迭代任务直接读取中间结果,避免了重复计算,大幅提升了数据处理效率。另外,持久化数据到硬盘,打破了内存容量不足对数据集规模的限制,使得Spark处理大数据游刃有余。

但是目前初始RDD数据集按照随机比例进行分割,Spark所提供的持久化框架根据依据此比例将数据持久化到不同的存储介质中,无法实现按需持久化。

发明内容

本发明旨在解决现有技术中的无法实现按需持久化技术问题,提供一种能无法实现按需持久化的基于SSD和HDD混合存储系统的RDD持久化方法。

本发明的实施例提供一种基于SSD和HDD混合存储系统的RDD持久化方法,所述方法包括以下步骤:

RDD模块将RDD模块中的块标识和RDD模块中数据的预设持久化级别传递给块管理器;

所述块管理器将所述块标识和预设持久化级别传递给磁盘块管理器;

所述磁盘块管理器将所述预设持久化级别传递给设备适配器;

所述设备适配器接收数据的预设持久化级别和读取配置文件中两个目录管理变量,根据数据的预设持久化级别进行预设持久化级别和对应目录管理变量中临时文件目录匹配,并将匹配得到的临时文件目录返回给所述磁盘块管理器;

所述磁盘块管理器根据所述块标识得到文件名,并根据匹配得到的临时文件目录和所述文件名得到数据存储地址,并将所述数据存储地址返回至所述块管理器;

所述块管理器根据所述数据存储地址对RDD模块中的数据在SSD或HDD中进行存储。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710358093.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top