[发明专利]一种面向交互式Spark应用的数据动态放置方法有效
申请号: | 201810455119.6 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108614738B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 梁毅;程石帆;常仕禄;刘飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 交互式 spark 应用 数据 动态 放置 方法 | ||
本发明公开了一种面向交互式Spark应用的数据动态放置方法,该方法分为五个步骤:初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束。本发明针对Spark交互式应用在动态资源分配的背景下,RDD数据无法可靠放置的不足,在相邻交互请求间存在较长时间间隔时,依据任务执行器中缓存RDD分区的价值以及数据迁移的代价,利用粒子群算法进行缓存RDD分区数据的重放置,从而达到充分利用任务执行器的内存空间且提高交互式请求执行效率的目的。
技术领域
本发明属于分布式计算领域,具体涉及分布式内存计算平台Spark的数据放置方法。
背景技术
分布式内存计算平台Spark是海量数据处理领域的最新技术进展。Spark平台以弹性分布式数据集(RDD)作为海量分布存储数据的抽象表达,降低海量分布数据的操作门槛。交互式数据查询是Spark平台支撑的一类主要应用。交互式数据查询应用充分利用Spark平台提供的RDD数据缓存机制,将数据查询中反复使用的大规模RDD数据缓存于Spark任务执行器的内存空间中,减少数据读取开销,从而获得较高的查询效率。
交互式Spark应用中请求负载的到达具有较强的随机性,相邻请求间往往存在随机的时间间隔。为了充分利用平台资源,Spark平台采用动态资源分配技术,即检测到应用所分配的任务执行器处于闲置状态超过一个时间阈值时,则关闭任务执行器,释放执行器中任务占用的CPU和内存资源,待新的查询请求到来再重新分配资源。关闭任务执行器的过程直到当前应用所持有的任务执行器数量达到用户设置的下界为止。上述技术运用于实际Spark交互式数据查询应用存在如下不足:
(1)RDD缓存数据丢失,造成重计算开销。Spark交互式数据查询应用中查询请求间复用RDD数据集频繁发生。例如,在执行某次具体的查询时,用户缓存的RDD数据通常是会被重复使用的中间结果,这些结果往往会在之后几次的查询中再次使用。在Spark平台中,RDD数据是基于应用所分配的所有任务执行器分布存储的。因此,一旦在交互式应用中存在RDD缓存数据的任务执行器被关闭,就将导致在之后查询中再次使用这个RDD时,造成重计算开销。
(2)无法充分利用任务执行器的空闲内存空间,对RDD数据进行动态存储。如前所述,既有Spark资源动态分配技术不会对任务执行器上的RDD缓存数据进行任何形式的保存,一旦任务执行器超时则直接关闭。然而,由于RDD数据存储倾斜以及临时变量释放等原因,在空闲时间间隔内,该应用保留的任务执行器中往往存在空闲内存空间。既有Spark资源动态分配技术无法利用空闲时间间隔对任务执行器中的RDD缓存数据进行动态存储,达到先“腾空”任务执行器再释放资源的目的。因此,该技术无法利用既有资源保存RDD缓存数据。
发明内容
本发明方法针对Spark交互式应用在动态资源分配的背景下,RDD数据放置存在的不足,在相邻交互请求间存在较长时间间隔时,依据任务执行器中缓存RDD分区的价值以及数据迁移的代价,利用粒子群算法进行缓存RDD分区数据的重放置,从而达到充分利用任务执行器的内存空间且提高交互式请求执行效率的目的。
本发明采用的技术方案为一种面向交互式Spark应用的数据动态放置方法,该数据放置方法分为五个步骤:初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束。在本方法中,有九个基本参数:任务执行器的过期时间τ、加速度常数c1,c2、惯性因子ω、随机函数r1,r2、迭代次数NI、粒子数量pNumber、用户给定的权值比例θ。τ取值为大于60的整数,c1,c2取值为1~3之间,ω为3~5之间、r1,r2的取值为0~1之间,NI取值为50~100之间,pNumber的取值为3~10之间,θ的取值为大于0的实数。
上述方法在计算机上按以下步骤实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810455119.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:客服机器人理解性能检测融合方法和装置
- 下一篇:或非型快闪存储器