[发明专利]空天地一体化网络中时延最小化计算任务卸载方法及系统有效

申请号：	202110720194.2	申请日：	2021-06-28
公开（公告）号：	CN113346944B	公开（公告）日：	2022-06-10
发明（设计）人：	王政;俞晖;朱世超;韦安琪	申请（专利权）人：	上海交通大学
主分类号：	H04B7/185	分类号：	H04B7/185;H04L41/083;H04L41/142;H04L41/14;G06N3/04
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	天地一体化网络中时延最小化计算任务卸载方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种空天地一体化网络中时延最小化计算任务卸载方法，其特征在于，包括：

步骤S1：建立支持计算任务卸载的空天地一体化网络的网络架构；

步骤S2：基于空天地一体化网络的网络架构构建空天地一体化网络模型；

步骤S3：基于构建的空天地一体化网络模型建立面向时延最小的优化问题；

步骤S4：将优化问题建模为马尔科夫决策过程；

步骤S5：采用CL-MADDPG算法求解马尔科夫决策过程，输出卸载策略；

所述空天地一体化网络的网络架构包括多个动态产生任务节点的地面节点以及为地面节点提供计算服务无人机和卫星；

所述空天地一体化网络模型包括：空天地一体化网络系统模型、通信模型、任务模型以及执行模型；

所述步骤S2中空天地一体化网络模型包括：空天地一体化网络系统模型、通信模型、任务模型以及执行模型；

所述空天地一体化网络系统模型包括：在空天地一体化网络中，有N个地面节点，表示为集合一架无人机U；一颗卫星S；空天地一体化网络系统是分时隙的，时隙总个数为T，时隙集合为一个时隙的长度为τ；

所述通信模型包括：在时隙t时，地面节点n和无人机之间的通信速率为在时隙t时，地面节点和卫星之间的通信速率为

所述任务模型包括：在时隙t时，节点n产生的任务表示为其中，表示任务输入数据大小；表示任务计算的复杂度；

所述执行模型包括：对于任务节点n对任务执行进行决策；决策后，本地执行的子任务为无人机执行的子任务为卫星执行的子任务为其中，分别为任务在本地、无人机和卫星执行的比例；且中至少一个为0；表示在时隙t时，节点n和无人机的连通关系，为1表示时隙t时，节点n在无人机的通信范围内，为0表示不在通信范围内，的值由节点n和无人机之间的距离和无人机的通信半径的大小关系得出；

约束条件包括：

当任务在本地执行时，本地的任务采取串行处理的策略，子任务在本地处理时延为

当任务卸载到无人机执行时，无人机上执行子任务的处理时延为

当任务卸载到卫星执行时，卫星上执行子任务处理时延为

所述步骤S3包括：

根据任务的各子任务的处理时延，基于子任务之间并行处理关系，将任务的处理时延表示为：

在时隙t产生的任务的总处理时延表示为：

其中，表示在时隙t时产生任务的节点集合；

由于节点任务产生的动态性，最小化在时隙集合的时间范围内产生的所有任务的处理时延，表示如下：

其中，γ表示所有任务的决策的集合；T表示时隙总个数；

所述步骤S4中马尔科夫决策过程包括：用三元组S,A,R表示马尔科夫决策过程；其中，S表示状态空间；A表示动作空间；R表示奖励函数；

所述状态空间S包括：在时隙t时地面节点n的状态表示：

其中，表示节点n完成本地缓存中的正在排队任务所需要的时间；表示节点n附近的节点完成各自缓存中的排队任务需要的平均时间；表示节点n和无人机的连通性；表示节点n与无人机间的路径损耗；表示无人机当前剩余的计算资源；表示无人机完成缓存中的排队任务所需要的时间；

所述动作空间A包括：在时隙t时地面节点n的动作表示如下：

其中，表示节点决策将部分任务卸载到无人机，表示节点决策将部分任务卸载到卫星；表示任务卸载执行的比例；表示在将部分任务卸载到无人机的情况下，预约的计算资源占无人机总的计算资源的比例；

所述奖励函数R包括：在时隙t时地面节点n的奖励表示如下：

其中，表示在时隙t时产生任务的节点的集合；表示集合中元素的个数，等于在时隙t时所产生的任务的平均处理时延的负值；

所述步骤S5包括：

步骤S5.1：N₀个智能体分别对应N₀个地面节点，每个智能体包括Actor神经网络、Critic神经网络、Target Actor神经网络以及Target Critic神经网络；

步骤S5.2：使用MADDPG算法对N₀个智能体进行训练直至收敛，得到训练后的智能体；

步骤S5.3：训练后的智能体通过复制父代网络参数和组合父代网络参数生成下一代智能体，重复执行步骤S5.2至步骤S5.3，直至智能体数量达到预设值，并使用MADDPG算法对达到预设数量的智能体进行训练直至收敛，输出每个智能体的卸载策略；

所述Actor神经网络根据当前的状态输出动作；

所述Critic神经网络根据当前的状态和采取的动作生成动作价值，表示对动作好坏的评价；

所述Target Actor神经网络根据下一时刻状态估计下一时刻动作，用于估计下一时刻动作；

所述Target Critic神经网络用于根据下一时刻状态和下一时刻动作计算下一时刻的动作价值；

所述步骤S5.2包括：

第n个智能体的Actor网络表示为μ_n(s_n|θ_n)，其中，s_n表示智能体观察到的状态；θ_n表示Actor网络参数；Critic网络表示为Q_n(s_n,a_n|ω_n)，其中，a_n表示智能体观察到状态s_n后执行的动作；ω_n表示Critic网络参数；Target Actor网络表示为μ′_n(s_n|θ′_n)，其中，θ′_n表示Target Actor网络的参数；Target Critic网络表示为Q′_n(s_n,a_n|ω′_n)，其中ω′_n表示Target Critic网络的参数；