[发明专利]混合云环境下面向代价优化的工作流数据布局方法有效

申请号：	201910317130.0	申请日：	2019-04-19
公开（公告）号：	CN110033076B	公开（公告）日：	2022-08-05
发明（设计）人：	於志勇;黄引豪;陈星;郑勇杰;黄志豪	申请（专利权）人：	福州大学
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/12;G06F17/16
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊;陈明鑫
地址：	350108 福建省福州市闽***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混合环境面向代价优化工作流数据布局方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种混合云环境下面向代价优化的工作流数据布局方法，其特征在于，首先，进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数；其次，对遗传粒子进行问题编码，实现粒子到数据布局策略的一一对应关系；再而，基于目标函数设计适应度函数来评价粒子优劣；最后，基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解；

所述进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数的具体过程如下：

科学工作流由有向无环图W＝(T,DS,E,G)组成，其中，T＝{t₁,t₂,...,t_n}表示包含n个任务的集合；而DS＝{ds₁,ds₂,...,ds_m}表示该科学工作流中所有数据集的集合；E表示任务与数据之间的依赖矩阵，若e_ij＝1，代表任务t_j的执行需要数据集ds_i；G表示数据与任务之间的依赖矩阵，若g_nm＝1，代表数据集ds_m是由任务t_n产生；任务t_i＝Input_i,Output_i，其中，Input_i表示其输入数据集的集合，Output_i表示其输出数据集的集合；数据集ds_i＝size_i’,gt_i,pc_i，其中，size_i’表示该数据集的大小，gt_i表示生成数据集ds_i的任务，pc_i表示ds_i必须存放的私有数据中心；其中，gt_i由公式(1)表示，pc_i由公式(2)表示：

其中，DS_init和DS_gen分别表示初始数据集集合和生成数据集集合，GT(ds_i)表示产生数据集ds_i的任务；数据集按照其隐私性分成隐私数据集DS_pri和非隐私数据集DS_pub，place(ds_i)表示ds_i指定存放的数据中心；

混合云环境由多个数据中心组成，数据中心集合DC＝{dc₁,dc₂,...,dc_n}，其中，dc_i＝size_i,availsize_i,pri_i,storecost_i，size_i表示数据中心dc_i的存储容量，availsize_i表示数据中心dc_i的可用容量，pri_i表示数据中心的类型，当pri_i＝1时，表示数据中心属于私有云数据中心，能够存放隐私数据和非隐私数据；当pri_i＝0时，表示数据中心属于共有云数据中心，只能够存放非隐私数据；storecost_i表示存储单位容量的数据需要的花费；不同数据中心之间具有不同的传输带宽，其中对且i≠j,band_ij表示数据中心dc_i和数据中心dc_j之间的网络传输带宽，并且band_ij＝band_ji；不同数据中心之间具有不同的单位传输代价，对且i≠j,cost_ij表示数据中心dc_i和数据中心dc_j之间的单位传输代价，并且cost_ij＝cost_ji；

而后，将整个数据布局的方案定义为S＝(Map,Trans,C_total,T_total)，其中，Map是数据放置的映射集合，集合中每一个元素map(ds_i,dc_j)表示数据集ds_i被放置在数据中心dc_j上；Trans＝{trans₁,trans₂,...,trans_n}表示一组产生传输代价的数据调度集合，trans_n＝ds_k,dc_i,dc_j表示数据集ds_k从数据中心dc_i传输到数据中心dc_j的一次传输，该传输将同时产生传输时间和传输代价；其中，传输时间如公式(3)所示，传输代价如公式(4)所示；

数据的存储总代价C_s如公式(5)所示：

C_total表示数据布局下，整个科学工作流完成时产生的总代价，如公式(6)所示，T_total表示该数据布局下，科学工作流的总传输时延，如公式(7)所示；

同时，对于整个科学工作流，定义一个总传输时延约束TimeLimit，表示科学工作流产生的总传输时延不能超过该约束；

综上，将混合云环境下面向代价优化的科学工作流数据布局问题，用下述公式(8)表示，其目标是最小化数据布局总代价C_total的同时，满足科学工作流的总传输时延约束和满足每个数据中心容量限制；

所述目标函数如下：

所述对遗传粒子进行问题编码的具体过程如下：

采用数据集-数据中心的离散编码方式来构造粒子；在第t次迭代时，粒子i的位置X_i^t如公式(9)所示：

X_i^t＝(x_i1^t,x_i2^t,...,x_in^t) (9)

每个粒子由n维元素组成，n代表科学工作流中非隐私数据集的数量；x_ik^t(k＝1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号，即x_ik^t的取值范围为[1,|DC|]；

所述适应度函数公式如下：

若粒子为可行解粒子，则其适应度函数值为其数据布局总代价C_total，若粒子为不可行解粒子，则将其数据布局总代价视为无限，即其适应度函数值为无限大；其中，可行解粒子表示编码粒子所对应的数据布局总传输时延小于科学工作流总传输时延限制要求，且所有数据中心的剩余可用容量均大于0；不可行解粒子表示编码粒子所对应的数据布局总传输时延大于科学工作流总传输时延限制要求，或某个数据中心的剩余可用容量小于0。

2.根据权利要求1所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于，所述基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解的具体过程如下：

1)初始化种群；

2)对于每一代粒子，按照适应度函数值排序，选择前50％的优秀个体，通过如下公式(11)变化后进入到下一代；

其中个体交叉部分与种群交叉部分如公式(12)与公式(13)：

若变化后的粒子为不可行解粒子，则重新对原粒子进行变化直到其变为可行解粒子；

3)剩下的50％个体，随机选取前50％优秀个体中的一个，进行遗传算法中的交叉与变异操作后进入下一代，其变化公式(14)如下：

其中变异部分如公式(15)：

若变化后的粒子为不可行解粒子，则重新选择前50％优秀个体中的一个进行交叉与变异操作，直到下一代种群个体数目达到原始种群规模；

4)对于每一代粒子，更新一次族群历史最优值，若更新超过100代，族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数，停止更新，并将族群历史最优粒子做为解输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】