[发明专利]一种基于SSD和HDD的混合存储系统的Spark架构优化方法有效
申请号: | 201710358537.9 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107179883B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 陆克中;王明俭;毛睿;廖好;朱金彬;隋秀峰 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 王利彬 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ssd hdd 混合 存储系统 spark 架构 优化 方法 | ||
本发明提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法,所述方法包括:设置SSD目录管理变量和HDD目录管理变量;设置设备适配器以实现数据持久化级别和对应临时文件目录之间的匹配;设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口;扩大两个持久化级别的作用域的范围至所述设备适配器。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于SSD和HDD的混合存储系统的Spark架构优化方法。
背景技术
在现有的大数据时代,面对海量数据,如何在有效的时间内管理、分析并提取有价值的信息,成为人们亟需解决的问题。然而,无论是规模、种类还是结构,大数据对人们驾驭数据的能力提出了巨大挑战。
Spark是目前高效且在产业界被广泛使用的大数据计算架构,是通用、快速的大规模数据处理引擎。首先,Spark提供了统一的解决方案,可以用于交互式查询、实时流处理、机器学习等复杂任务;其次,Spark通过弹性分布式数据集(Resilient DistributedDataset,简称RDD)划分阶段和任务,通过高效的有向无环图(Directed Acyclic Graph,简称DAG)执行引擎优化子任务执行顺序,并通过基于内存的计算大幅提升数据处理效率;第三,Spark数据管理依赖于HDFS、Hive等多种数据源,并且集群模式下的Spark实现了横向扩展,支持大规模数据的处理。RDD是Spark区别于其他大数据计算架构最重要的概念,它是一种具有高度容错机制的、只读的分布式数据集。Spark应用程序中,每一个RDD会被分成多个分区,且Spark以分区为单位对RDD进行各种操作。持久化(Persist)RDD分区数据到内存或硬盘实现了对计算任务中间结果的缓存,以供后续迭代任务直接读取中间结果,避免了重复计算,大幅提升了数据处理效率。另外,持久化数据到硬盘,打破了内存容量不足对数据集规模的限制,使得Spark处理大数据游刃有余。
但是目前的Spark架构无法感知混合存储系统中底层存储设备的组合结构,另外对SSD的存在无感知能力。
发明内容
本发明旨在解决现有技术中Spark架构无法感知混合存储系统中底层存储设备的组合结构的技术问题,提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法。
本发明的实施例提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法,所述方法包括:
设置SSD目录管理变量和HDD目录管理变量;
设置设备适配器以实现数据持久化级别和对应临时文件目录之间的匹配;
设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口;
扩大两个持久化级别的作用域的范围至所述设备适配器。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
本发明的技术方案与现有技术相比,有益效果在于:通过设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口,使得向用户提供了SSD_ONLY和HDD_ONLY的两个持久化API,使得底层存储设备的组合结构构被展示出来,从而感知底层存储设备的组合结构。
附图说明
图1是本发明分布式计算系统一种实施例的结构示意图。
图2是本发明分布式计算系统的数据处理方法一种实施例的流程图。
图3是本发明Spark持久化架构一种实施例的结构示意图。
图4是本发明优化后的Spark持久化架构一种实施例的结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358537.9/2.html,转载请声明来源钻瓜专利网。