[发明专利]Spark平台下基于最大化缓存增益的缓存替换方法有效
| 申请号: | 202010216293.2 | 申请日: | 2020-03-25 |
| 公开(公告)号: | CN111538681B | 公开(公告)日: | 2022-11-01 |
| 发明(设计)人: | 李春林;张梦莹 | 申请(专利权)人: | 武汉理工大学 |
| 主分类号: | G06F12/0871 | 分类号: | G06F12/0871;G06F12/0893 |
| 代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 刘琳 |
| 地址: | 430070 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | spark 平台 基于 最大化 缓存 增益 替换 方法 | ||
本发明公开了一种Spark平台下基于最大化缓存增益的缓存替换方法,该方法首先通过对有向无环图中各种操作的依赖性进行分析,提出了一个用于衡量缓存收益的缓存增益模型,目标是使其缓存增益最大化。然后在作业到达率已知的情况下采用取整舍入方法对该受背包约束的最大化问题求得离线最优近似解。最后在作业到达率未知的情况下,采用投影梯度上升方法获取每个缓存项应放置在缓存中的概率,从而获得满足缓存增益最大化的在线自适应缓存替换策略。此方法充分利用了系统资源,缩短了Spark应用的执行时间,提高了缓存命中率。
技术领域
本发明涉及计算机大数据技术领域,具体涉及一种Spark平台下基于最大化缓存增益的缓存替换方法。
背景技术
随着大数据分析和云计算的兴起,基于集群的大规模数据处理已成为许多应用程序和服务的常见范例。数据并行计算框架如Apache Spark常常被用于大规模执行此类数据处理。在此类数据处理过程中大量输入数据集被运行,其中执行的作业也包括数百个相同的并行子任务。Spark计算框架处理这些大量数据所需的时间和资源是巨大的。然而,在这样的分布式环境中执行的作业通常具有显着的计算重叠,即处理相同数据的不同作业可能涉及共同的中间计算,这种计算重叠在实践中是自然产生的。最近来自行业内的数据记录显示,微软生产集群中有40%~60%的中间结果重计算工作,而Cloudera集群中高达78%的工作涉及数据的重新访问。
Spark最近已成为最有效率的基于内存的分布式数据处理平台之一,其中弹性分布式数据集RDD是一种基于分布式内存的抽象数据结构。RDD可以跨越集群中多个节点而将数据存储在分布式内存中。Spark并行计算框架是以非自动方式在其框架中实现缓存功能的,提交作业的开发人员决定需要缓存的中间计算结果,即决定哪些RDD需要被存储在基于RAM的缓存中。当RAM缓存已满后,进行缓存驱逐时使用最常见的LRU缓存驱逐策略驱逐某些RDD。当然开发人员也可以选择在Hadoop分布式文件系统(HDFS)上存储被驱逐的RDD,但需要额外的开销才能在HDFS上执行写操作。众所周知,缓存在RAM中的RDD可以被更快地检索重利用,但是由于开发人员没有显式缓存RDD,或者已经缓存而随后被驱逐,都会发生缓存未命中现象。在其中任何一种情况下,Spark都不得不承受大量的计算开销,即如果请求的RDD既不在RAM中也不存储在Hadoop分布式文件系统中,Spark会从起点开始进行重新计算。总的来说,缓存未命中现象会导致额外的延迟,无论是从Hadoop分布式文件系统读取还是完全重新计算丢失的RDD。如何在Spark平台下制定有效的缓存替换策略成为亟待解决的问题。目前关于Spark平台下缓存替换的研究普遍存在以下几个问题:①在进行缓存替换时考虑因素过于单一;②处理大规模密集型应用程序时缓存结果的不确定性;③缓存策略选取不当会极大降低Spark应用执行效率。
发明内容
本发明的目的就是针对现有技术的缺陷,提供一种Spark平台下基于最大化缓存增益的缓存替换方法,考虑由于缓存而减少的总工作量、作业到达率、缓存容量和缓存项的重计算成本等因素,有效降低Spark应用的平均执行时间,同时提高系统内存利用率与缓存命中率。
为实现上述目的,本发明所设计的Spark平台下基于最大化缓存增益的缓存替换方法包括如下步骤:
1)通过对Spark作业特有的有向无环图DAG进行分析,制定缓存增益目标函数,其中考虑了作业到达率λG、缓存容量大小K和缓存项的重计算成本tv等因素;
2)在作业到达率已知的情况下,采用取整舍入方法求得缓存增益函数的最优近似解,通过计算结点v被缓存的边缘概率yv将缓存增益函数转化为函数F(Y),从而构造出缓存增益函数F(x)的凸松弛,由于此时目标函数的约束条件不是凹松弛,因此将转化函数F(Y)近似定义为函数L(Y);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010216293.2/2.html,转载请声明来源钻瓜专利网。





