[发明专利]基于多智能体强化学习的移动边缘计算卸载方法有效
| 申请号: | 202011067955.0 | 申请日: | 2020-10-08 |
| 公开(公告)号: | CN112367353B | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 李轩衡;汪意迟;李慧瑶 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04W28/08;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 强化 学习 移动 边缘 计算 卸载 方法 | ||
1.一种基于多智能体强化学习的移动边缘计算卸载方法,其特征在于,步骤如下:
(1)定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数
定义1:用户设备n在时隙j的状态集用表示,其中,表示该设备在时隙j需要完成的计算任务的输入数据量;代表完成任务所需的CPU循环数;表示在时隙j初该设备的剩余电量;假设各设备在每个时隙均可充电,充电的功率为且时隙初的剩余电量不超过电池容量En,max;
表示时隙j内,用户设备n与M个边缘节点之间的信道增益的合集;其中表示时隙j内用户设备n与边缘节点m之间的所有信道对应的增益的集合;
定义2:用户设备n在时隙j的动作集用表示,其中,表示时隙j内用户设备n产生的任务卸载到边缘节点上的比例;表示时隙j内用户设备n卸载的边缘节点标号;表示时隙j内用户设备n传输所占用的信道标号;和分别表示时隙j内,用户设备n分配给本地计算和任务传输的能量,其需要满足:
定义3:用户设备n在时隙j的奖赏函数定义为:
其中,为用户设备n在时隙j处理计算任务所需要的总时延,满足其中表示本地处理时延,表示传输时延,表示边缘节点计算时延;当任务处理总时延时,用户设备n在时隙j内的计算任务视为失败,为任务失败所对应的惩罚;w1和w2分别为权重系数,计算得到用户设备n在时隙j的奖赏值;
(1.1)关于总时延的计算:
①本地处理时延的计算方式如下:
其中,为该任务在本地所分配到的CPU循环频率,计算方式如下:
其中,τn为第n个设备的有效开关电容,与移动设备的芯片架构有关;
②任务传输时延通过联立求解如下方程组得出
其中,表示该设备选择的第个信道即任务传输所用信道的增益;为该信道上行链路的最大传输速率;为传输过程中的干扰;为发射功率;W为上述信道的带宽;σ2为平均每个时隙内信道中的噪声功率;
③边缘节点处理时延的计算方式如下:
当边缘服务器同时处理多个计算任务时,假设每个任务平分计算资源;时隙j内用户设备n选择的边缘节点中需要处理的计算任务个数用表示,设边缘节点服务器的总CPU循环频率为则当前任务分配到的CPU频率为:
用表示任务在边缘节点上处理的时延,其值为:
(1.2)任务失败惩罚因子的计算方式如下:
假设所有任务的最大时延容忍度均为δ,则有:
①若即电量耗尽,当前任务无法执行,视作任务失败,此时任务的总时延定义为任务失败惩罚因子
②若即任务处理超时,视作任务失败,此时任务的总时延定义为任务失败惩罚因子
③除去①、②中所述的情况之外,均视为任务处理成功,任务失败惩罚因子
(2)将用户设备视作N个智能体,基于步骤(1)中定义的状态集合、动作集合和奖赏函数,进行基于多智能体深度强化学习算法的任务卸载和资源分配的联合策略训练;
每个智能体中均包含Actor网络和Critic网络,两者又均包含在线深度神经网络和目标深度神经网络两个部分;其中Actor在线深度神经网络可模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标深度神经网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新;Critic在线深度神经网络依据所有智能体的当前状态和Actor在线深度神经网络输出的动作对Actor在线深度神经网络的输出进行评估;Critic目标深度神经网络依据所有智能体的下一个状态和Actor目标深度神经网络输出的动作对Actor目标深度神经网络的输出进行评估;Critic在线深度神经网络与Critic目标深度神经网络一同协助智能体完成策略的更新;此外,该算法中还含有用于存储训练数据的经验池D;当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性;具体步骤如下:
(2.1)随机初始化N个智能体的Actor在线深度神经网络参数Critic在线深度神经网络参数并初始化Actor目标深度神经网络参数为θA,Critic目标深度神经网络参数为θC;初始化经验池D;
(2.2)对于任意时隙j,将各智能体的状态分别输入至对应的Actor网络,对于每一个智能体n,
①以概率1-ε根据Actor在线网络的输出确定动作,公式如下:
其中,为由智能体n的Actor在线深度神经网络模拟出来的当前的策略,以下均用μn简化代替;Nt为随机噪声;
②以概率ε随机选择动作
(2.3)各智能体执行动作并根据执行动作之后的情况记录各自奖赏值和新的状态
(2.4)将(xj,aj,rj,xj+1)存储至经验池D,并将各智能体的状态更新为xj+1;
(2.5)每个时隙,网络参数更新一次;对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:
(2.5.1)从经验池D中随机抽取S个经验,设(xk,ak,rk,x'k)对应第k∈{1,...,S}条经验;对于k=1至k=S,重复步骤①、②:
a)将N个智能体的状态值依次输入各智能体对应的Actor目标深度神经网络中,得到动作将状态x'k与得到的动作a'k分别输入各智能体对应的Critic目标深度神经网络,得到目标网络输出的评价值,用表示第n个智能体目标网络输出的评价值;将状态xk与动作ak分别输入各智能体对应的Critic在线深度神经网络,得到在线网络输出的评价值,用表示第n个智能体在线网络输出的评价值;
b)定义目标评价值,并计算各智能体的目标评价值;
定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:
其中γ为可人为设置的参数,为第n个智能体的第k个抽样经验中的奖赏值;
第2.5.2、Critic在线网络的损失函数计算如下:
为最小化损失函数基于梯度下降法更新Critic在线网络的参数
第2.5.3、Actor在线网络的策略梯度计算如下:
基于梯度上升法更新Actor在线网络的参数
第2.5.4、利用更新智能体n的Actor和Critic目标深度神经网络,τ为人为设置的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011067955.0/1.html,转载请声明来源钻瓜专利网。





