[发明专利]空天地一体化网络中时延最小化计算任务卸载方法及系统有效
申请号: | 202110720194.2 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113346944B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王政;俞晖;朱世超;韦安琪 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04L41/083;H04L41/142;H04L41/14;G06N3/04 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 天地 一体化 网络 中时延 最小化 计算 任务 卸载 方法 系统 | ||
1.一种空天地一体化网络中时延最小化计算任务卸载方法,其特征在于,包括:
步骤S1:建立支持计算任务卸载的空天地一体化网络的网络架构;
步骤S2:基于空天地一体化网络的网络架构构建空天地一体化网络模型;
步骤S3:基于构建的空天地一体化网络模型建立面向时延最小的优化问题;
步骤S4:将优化问题建模为马尔科夫决策过程;
步骤S5:采用CL-MADDPG算法求解马尔科夫决策过程,输出卸载策略;
所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星;
所述空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
所述步骤S2中空天地一体化网络模型包括:空天地一体化网络系统模型、通信模型、任务模型以及执行模型;
所述空天地一体化网络系统模型包括:在空天地一体化网络中,有N个地面节点,表示为集合一架无人机U;一颗卫星S;空天地一体化网络系统是分时隙的,时隙总个数为T,时隙集合为一个时隙的长度为τ;
所述通信模型包括:在时隙t时,地面节点n和无人机之间的通信速率为在时隙t时,地面节点和卫星之间的通信速率为
所述任务模型包括:在时隙t时,节点n产生的任务表示为其中,表示任务输入数据大小;表示任务计算的复杂度;
所述执行模型包括:对于任务节点n对任务执行进行决策;决策后,本地执行的子任务为无人机执行的子任务为卫星执行的子任务为其中,分别为任务在本地、无人机和卫星执行的比例;且中至少一个为0;表示在时隙t时,节点n和无人机的连通关系,为1表示时隙t时,节点n在无人机的通信范围内,为0表示不在通信范围内,的值由节点n和无人机之间的距离和无人机的通信半径的大小关系得出;
约束条件包括:
当任务在本地执行时,本地的任务采取串行处理的策略,子任务在本地处理时延为
当任务卸载到无人机执行时,无人机上执行子任务的处理时延为
当任务卸载到卫星执行时,卫星上执行子任务处理时延为
所述步骤S3包括:
根据任务的各子任务的处理时延,基于子任务之间并行处理关系,将任务的处理时延表示为:
在时隙t产生的任务的总处理时延表示为:
其中,表示在时隙t时产生任务的节点集合;
由于节点任务产生的动态性,最小化在时隙集合的时间范围内产生的所有任务的处理时延,表示如下:
其中,γ表示所有任务的决策的集合;T表示时隙总个数;
所述步骤S4中马尔科夫决策过程包括:用三元组S,A,R表示马尔科夫决策过程;其中,S表示状态空间;A表示动作空间;R表示奖励函数;
所述状态空间S包括:在时隙t时地面节点n的状态表示:
其中,表示节点n完成本地缓存中的正在排队任务所需要的时间;表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间;表示节点n和无人机的连通性;表示节点n与无人机间的路径损耗;表示无人机当前剩余的计算资源;表示无人机完成缓存中的排队任务所需要的时间;
所述动作空间A包括:在时隙t时地面节点n的动作表示如下:
其中,表示节点决策将部分任务卸载到无人机,表示节点决策将部分任务卸载到卫星;表示任务卸载执行的比例;表示在将部分任务卸载到无人机的情况下,预约的计算资源占无人机总的计算资源的比例;
所述奖励函数R包括:在时隙t时地面节点n的奖励表示如下:
其中,表示在时隙t时产生任务的节点的集合;表示集合中元素的个数,等于在时隙t时所产生的任务的平均处理时延的负值;
所述步骤S5包括:
步骤S5.1:N0个智能体分别对应N0个地面节点,每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络;
步骤S5.2:使用MADDPG算法对N0个智能体进行训练直至收敛,得到训练后的智能体;
步骤S5.3:训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体,重复执行步骤S5.2至步骤S5.3,直至智能体数量达到预设值,并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛,输出每个智能体的卸载策略;
所述Actor神经网络根据当前的状态输出动作;
所述Critic神经网络根据当前的状态和采取的动作生成动作价值,表示对动作好坏的评价;
所述Target Actor神经网络根据下一时刻状态估计下一时刻动作,用于估计下一时刻动作;
所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值;
所述步骤S5.2包括:
第n个智能体的Actor网络表示为μn(sn|θn),其中,sn表示智能体观察到的状态;θn表示Actor网络参数;Critic网络表示为Qn(sn,an|ωn),其中,an表示智能体观察到状态sn后执行的动作;ωn表示Critic网络参数;Target Actor网络表示为μ′n(sn|θ′n),其中,θ′n表示Target Actor网络的参数;Target Critic网络表示为Q′n(sn,an|ω′n),其中ω′n表示Target Critic网络的参数;
第n个智能体的累计期望奖励为:
其中,pμ表示状态分布;γ∈[0,1]表示奖励的折扣因子;T表示时隙总个数;E表示期望;sn表示智能体观察到的状态;γt表示γ的t次方;表示在时隙t时地面节点n的奖励;
J(θn)关于θn的梯度表示为:
其中,经验回放缓冲区D包含元组(sn,an,rn,s′n),是对智能体过去转移轨迹的采样,s′n是智能体在状态sn采取动作an后转移到的新状态,表示μn(sn|θn)关于θn的梯度,表示Qn(sn,an|ωn)关于an的梯度;
根据J(θn)关于θn的梯度使用梯度上升法更新Actor网络参数θn,使得输出的动作输入到Critic后,能够获得最大的Q值,Q值表示在状态sn下,采取动作an后,智能体能够获得的累计奖励的期望值;
对于Critic网络,使用梯度下降法最小化损失函数,更新Critic网络参数ωn,使得对于Q值的估计更为准确:
其中,Ln表示第n个智能体的损失函数,yn表示目标Q值,由Target Actor网络和TargetCritic网络估计得出,表达式为:
每过预设时间目标网络按如下规则进行更新:
θ′n←εθn+(1-ε)θ′n,ω′n←εωn+(1-ε)ω′n
其中,ε∈[0,1]是目标网络的学习速率;
所述步骤S5.3包括:
步骤S5.3.1:训练后的智能体中Actor网络的参数集合为将智能体的数量增加到min{2N0,N};
步骤S5.3.2:将增加后的智能体中Actor网络参数集合表示为并对增加后的智能体中Actor网络进行初始化;
初始化的方式如下所述:当当N0+1≤n≤min{2N0,N},随机选取父代和对于中的每一个参数,随机从两个父代中的一个选取;
步骤S5.3.3:对增加后的智能体Critic网络、Target Actor网络以及Target Critic网络分别进行初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110720194.2/1.html,转载请声明来源钻瓜专利网。