[发明专利]一种基于SSD和HDD的混合存储系统的Spark架构优化方法有效

申请号：	201710358537.9	申请日：	2017-05-19
公开（公告）号：	CN107179883B	公开（公告）日：	2020-07-17
发明（设计）人：	陆克中;王明俭;毛睿;廖好;朱金彬;隋秀峰	申请（专利权）人：	深圳大学
主分类号：	G06F3/06	分类号：	G06F3/06
代理公司：	深圳市恒申知识产权事务所(普通合伙) 44312	代理人：	王利彬
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ssd hdd 混合存储系统 spark 架构优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法，所述方法包括：设置SSD目录管理变量和HDD目录管理变量；设置设备适配器以实现数据持久化级别和对应临时文件目录之间的匹配；设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口；扩大两个持久化级别的作用域的范围至所述设备适配器。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于SSD和HDD的混合存储系统的Spark架构优化方法。

背景技术

在现有的大数据时代，面对海量数据，如何在有效的时间内管理、分析并提取有价值的信息，成为人们亟需解决的问题。然而，无论是规模、种类还是结构，大数据对人们驾驭数据的能力提出了巨大挑战。

Spark是目前高效且在产业界被广泛使用的大数据计算架构，是通用、快速的大规模数据处理引擎。首先，Spark提供了统一的解决方案，可以用于交互式查询、实时流处理、机器学习等复杂任务；其次，Spark通过弹性分布式数据集(Resilient DistributedDataset，简称RDD)划分阶段和任务，通过高效的有向无环图(Directed Acyclic Graph,简称DAG)执行引擎优化子任务执行顺序，并通过基于内存的计算大幅提升数据处理效率；第三，Spark数据管理依赖于HDFS、Hive等多种数据源，并且集群模式下的Spark实现了横向扩展，支持大规模数据的处理。RDD是Spark区别于其他大数据计算架构最重要的概念，它是一种具有高度容错机制的、只读的分布式数据集。Spark应用程序中，每一个RDD会被分成多个分区，且Spark以分区为单位对RDD进行各种操作。持久化(Persist)RDD分区数据到内存或硬盘实现了对计算任务中间结果的缓存，以供后续迭代任务直接读取中间结果，避免了重复计算，大幅提升了数据处理效率。另外，持久化数据到硬盘，打破了内存容量不足对数据集规模的限制，使得Spark处理大数据游刃有余。

但是目前的Spark架构无法感知混合存储系统中底层存储设备的组合结构，另外对SSD的存在无感知能力。

发明内容

本发明旨在解决现有技术中Spark架构无法感知混合存储系统中底层存储设备的组合结构的技术问题，提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法。

本发明的实施例提供一种基于SSD和HDD的混合存储系统的Spark架构优化方法，所述方法包括：

设置SSD目录管理变量和HDD目录管理变量；

设置设备适配器以实现数据持久化级别和对应临时文件目录之间的匹配；

设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口；

扩大两个持久化级别的作用域的范围至所述设备适配器。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

本发明的技术方案与现有技术相比，有益效果在于：通过设置两个持久化级别SSD_ONLY和HDD_ONLY以生成两个持久化接口，使得向用户提供了SSD_ONLY和HDD_ONLY的两个持久化API，使得底层存储设备的组合结构构被展示出来，从而感知底层存储设备的组合结构。

附图说明

图1是本发明分布式计算系统一种实施例的结构示意图。