[发明专利]一种面向交互式Spark应用的数据动态放置方法有效

申请号：	201810455119.6	申请日：	2018-05-14
公开（公告）号：	CN108614738B	公开（公告）日：	2022-02-15
发明（设计）人：	梁毅;程石帆;常仕禄;刘飞	申请（专利权）人：	北京工业大学
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向交互式 spark 应用数据动态放置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向交互式Spark应用的数据动态放置方法，其特征在于：该数据放置方法分为五个步骤：初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束；在本方法中，有九个基本参数：任务执行器的过期时间τ、加速度常数c₁，c₂、惯性因子ω、随机函数r₁，r₂、迭代次数NI、粒子数量pNumber、用户给定的权值比例θ；τ取值为大于60的整数，c₁，c₂取值为1～3之间，ω为3～5之间、r₁，r₂的取值为0～1之间，NI取值为50～100之间，pNumber的取值为3～10之间，θ的取值为大于0的实数；

上述方法在计算机上按以下步骤实现：

在交互式Spark应用的非活跃期持续时间大于τ秒时，依次执行以下步骤：

步骤(1)初始化：从Spark平台既有数据管理组件及任务执行器管理组件采集用于数据放置决策的初始化信息INFO，INFO的表示形式如公式(1)所示；

INFO＝{minExeNum,NETINFO,EXEINFO,RDDINFO,PARINFO} (1)

其中，minExeNum为动态资源分配下应用持有任务执行器的最小数量，NETINFO为Spark平台网络信息，EXEINFO为Spark交互式应用包含的任务执行器信息，RDDINFO为Spark交互式应用所包含的缓存RDD信息，PARINFO为缓存RDD分区信息；其中，

NETINFO表示为NETINFO＝{workerNum,NET}；其中，workerNum为集群中工作节点的数量；NET为网络带宽集合，表示为NET＝{net_mn|1≤m≤workerNum,1≤n≤workerNum}，net_mn表示第m个工作节点到第n个工作节点的网络带宽；

EXEINFO表示为EXEINFO＝{exeNum,exeStorCap,EXE,CORE}；其中，exeNum为Spark交互式应用所包含的任务执行器的总数量；exeStorCap为任务执行器的存储容量；EXE为任务执行器集合，表示为EXE＝{exe₁,exe₂,…,exe_k-1,exe_k,…,exe_exeNum}，其中，exe_k＝k；CORE为任务执行器核数集合，表示为CORE＝{core_k|1≤k≤exeNum}，core_k表示exe_k的CPU核数；对于EXE中的元素的所有元素，满足core_kcore_k-1；

RDDINFO表示为RDDINFO＝{rddNum,RS,TPN,RPN}；其中，rddNum为交互式应用包含的缓存RDD数量；RS为缓存RDD集合，表示为RS＝{rdd_i|1≤i≤rddNum}，rdd_i表示第i个缓存RDD；TPN为缓存RDD分区总数集合，表示为TPN＝{tpn_i|1≤i≤rddNum}，tpn_i表示rdd_i的缓存分区总数；RPN为缓存RDD在内存中的分区数量集合，表示为RPN＝{rpn_i|1≤i≤rddNum}，rpn_i表示rdd_i的在内存中的分区数量；

PARINFO表示为PARINFO＝{PA，SE,FR,FT,ST}；其中，PA为分区集合，表示为PA＝{pa_ij|1≤i≤rddNum,1≤j≤tpn_i}，pa_ij表示rdd_i的第j个分区；SE为分区大小集合，表示为SE＝{se_ij|1≤i≤rddNum,1≤j≤tpn_i}，se_ij表示分区pa_ij(pa_ij∈PA)的大小；FR为分区使用频度集合，表示为FR＝{fr_ij|1≤i≤rddNum，1≤j≤tpn_i}，fr_ij表示分区pa_ij(pa_ij∈PA)的使用频度；FT为分区对应任务的完成时间集合，表示为FT＝{ft_ij|1≤i≤rddNum，1≤j≤tpn_i}，ft_ij表示分区pa_ij(pa_ij∈PA)对应任务的完成时间；ST为分区对应任务的起始时间集合，表示为ST＝{st_ij|1≤i≤rddNum,1≤j≤tpn_i}，st_ij表示分区pa_ij(pa_ij∈PA)对应任务的起始时间；

如果minExeNum为0，则关闭所有任务执行器并执行步骤(5)；否则，执行步骤(2)；

步骤(2)缓存RDD分区价值评估；

步骤2.1)定义交互式应用的任务并行度为taskPar，利用公式(2)计算taskPar；

其中，core_k∈CORE；

步骤2.2)定义分区pa_ij(pa_ij∈PA)的重计算代价为rc_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(3)计算rc_ij；

rc_ij＝ft_ij-st_ij (3)

其中，ft_ij∈FT，st_ij∈ST；

步骤2.3)定义rdd_i(rdd_i∈RS)的完整度为cf_i；对于每一个rdd_i(rdd_i∈RS)，利用公式(4)计算cf_i；

其中，rpn_i∈RPN，tpn_i∈TPN；

步骤2.4)定义rdd_i(rdd_i∈RS)的分区缺失程度为lev_i；对于每一个rdd_i(rdd_i∈RS)，利用公式(5)计算lev_i；

其中，rpn_i∈RPN，tpn_i∈TPN；

步骤2.5)定义分区pa_ij(pa_ij∈PA)的价值为value_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(6)计算分区pa_ij(pa_ij∈PA)的价值value_ij；

其中，fr_ij∈FR；

步骤2.6)定义分区pa_ij放置到任务执行器exe_k上的数据迁移代价为DMC_ijk；对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(7)计算DMC_ijk；

其中，loce(exe_k)(exe_k∈EXE)为任务执行器exe_k所在的工作节点，locp(pa_ij)(pa_ij∈PA)为分区pa_ij所在的任务执行器；由公式(7)可知，如果loce(locp(pa_ij))＝loce(exe_k)，则DMC_ijk为0；这是因为如果分区与任务执行器位于同一工作节点上，分区的放置是没有数据迁移代价的；

步骤2.7)定义分区pa_ij(pa_ij∈PA)放置到任务执行器exe_k(exe_k∈EXE)上的收益为profit_ijk，对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(8)计算profit_ijk；

其中，对于不再保留的分区，将其放置到上，并令分区pa_ij(pa_ij∈PA)在exe₀上的收益profit_ij0为0；

步骤(3)缓存RDD分区的保留选取；

基于粒子群算法选取保留的缓存RDD分区；

步骤3.1)定义粒子群为PX，PX表示为PX＝{px_q|1≤q≤pNumber}；其中，px_q(px_q∈PX)表示为px_q＝{(pa_ij，exe_k)|pa_ij∈PA，exe_k∈EXE∪{exe₀}}，(pa_ij，exe_k)表示将分区pa_ij放置到任务执行器exe_k上；

步骤3.2)定义粒子px_q(px_q∈PX)上保留任务执行器集合为RE_q，RE_q表示为

步骤3.3)定义粒子px_q(px_q∈PX)上关闭任务执行器的集合为RM_q，RM_q表示为RM_q＝EXE-RE_q；

步骤3.4)随机初始化粒子群PX，对于粒子px_q(px_q∈PX)，px_q必须满足公式(9)；对于集合RE_q的大小|RE_q|，必须满足公式(10)；

|RE_q|＝minExeNum (10)

其中，se_ij∈SE；公式(9)表示在集合RE_q中，不存在任务执行器exe_k上所有分区大小之和大于任务执行器的存储容量ExeStorCap，公式(10)表示动态资源分配下保留的任务执行器数量|RE_q|必须与交互式应用持有任务执行器的最小数量minExeNum相等；

步骤3.5)定义收益权重系数为w₁，CPU核数的权重系数w₂；令

步骤3.6)定义迭代次数为δ，并令δ的初始值为0；

步骤3.7)定义粒子px_q(px_q∈PX)的适应度为fitness_q，利用公式(11)计算fitness_q；

步骤3.8)定义粒子pbest_q，pbest_q为相邻两轮迭代中，适应度较大的粒子，令对于每一个粒子px_q(px_q∈PX)，利用公式(12)求得pbest_q；

其中，表示粒子px_q在δ次迭代后的粒子，表示的适应度；

步骤3.9)定义粒子gbest，gbest可表示为粒子群PX中适应度最大的粒子，利用公式(13)求得gbest；

其中，表示取所有pbest_i粒子中，适应度最大的粒子；

步骤3.10)若{(pa_ij，exe_k)|(pa_ij，exe_k)∈pbest_q}，则令el_qij＝exe_k，el_qij即为粒子pbest_q中，分区pa_ij的位置；若{(pa_ij，exe_k)|(pa_ij，exe_k)∈gbest}，则令eg_ij＝exe_k，eg_ij即为粒子gbest中，分区pa_ij的位置；δ自增1，如果δNI，则执行步骤3.10.1)到步骤3.10.5)，否则执行步骤(4)；

步骤3.10.1)定义粒子px_q(px_q∈PX)的每一个分区pa_ij(pa_ij∈PA)在第δ次迭代时的速度为粒子px_q中分区pa_ij(pa_ij∈PA)所处的任务执行器为exe_k；对于每一个粒子px_q(px_q∈PX)中的每一个分区pa_ij(pa_ij∈PA)，利用公式(14)和公式(15)进行计算粒子px_q(px_q∈PX)中分区pa_ij在第δ次迭代时的和exe_k；

根据公式(14)和公式(15)可知，当迭代次数δ＝0时，粒子px_q(px_q∈PX)中分区pa_ij的速度为v；v为区间[-exeNum-1，exeNum+1]的整数，x为区间[0，exeNum]的整数；当迭代次数δ0时，按照粒子群算法的转换公式对粒子px_q中的分区pa_ij(pa_ij∈PA)进行位置转换；

步骤3.10.2)若粒子满足步骤3.4)中的公式(9)和公式(10)，则执行步骤3.10.3)；否则执行步骤3.10.5)；

步骤3.10.3)利用公式(11)计算的适应度如果则令pbest_q为并执行步骤3.10.4)；否则，执行步骤执行3.10)；

步骤3.10.4)如果则令gbest为执行步骤3.10)；

步骤3.10.5)令为pbest_q，并执行步骤3.10)；

步骤(4)缓存RDD分区数据的重放置；

步骤4.1)定义gbest中保留的任务执行器集合为GME，GME可表示为

步骤4.2)对于每一个(pa_ij，exe_k)((pa_ij，exe_k)∈gbest)，执行以下步骤；

步骤4.2.1)若exe_k＝exe₀，则删除pa_ij；

步骤4.2.2)若exe_k≠exe₀，则判断，若exe_k≠locp(pa_ij)，则把分区pa_ij放置到任务执行器exe_k上；

步骤4.3)关闭集合EXE-GME中的所有任务执行器；

步骤(5)结束：中止数据动态放置过程。

2.根据权利要求1所述的一种面向交互式Spark应用的数据动态放置方法，其特征在于：在Spark大数据处理平台中应用的任务执行器分配模块中增设一个决策模块并改造Spark的数据块管理模块；这个决策模块在交互式数据查询应用处于非活跃期时，会在任务执行器被关闭前收集相关信息(步骤(1))，然后利用这些信息对所有RDD缓存分区进行价值评估(步骤(2))，再基于粒子群算法求出所有数据放置方法(步骤(3))，接着根据全局最优粒子的各个分区位置进行分区放置(步骤(4))，最后结束本方法(步骤(5))，中止数据动态放置过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810455119.6/1.html，转载请声明来源钻瓜专利网。

上一篇：客服机器人理解性能检测融合方法和装置
下一篇：或非型快闪存储器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向交互式Spark应用的数据动态放置方法有效

专利文献下载