[发明专利]基于多目标深度强化学习的无人机边缘计算卸载方法在审
申请号: | 202310034089.2 | 申请日: | 2023-01-10 |
公开(公告)号: | CN115827108A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 柴争义;刘旭;李亚伦;袁东;侯昊乐 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06N20/00 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王利文 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多目标 深度 强化 学习 无人机 边缘 计算 卸载 方法 | ||
1.一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:包括以下步骤:
步骤1、构建无人机-移动边缘计算系统,该无人机-移动边缘计算系统由F个终端设备和M架无人机组成,每个无人机搭载MEC服务器在固定区域内进行任务卸载,使用表示第
其中
步骤2、采用深度强化学习的方法对无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,求解方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S 表示状态空间;A表示动作空间;是向量值奖励,和分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案;是任务卸载策略下的标量化函数, 其中、是指当前偏好;
步骤3、为了求得最小化时延和能耗, 需初始化用户偏好空间:采用NBI法生成均匀分布的N个权重向量,从而为时延和能耗两目标分配当前用户偏好空间;
步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化:所述Q网络采用DoubleDQN与Dueling DQN相结合的方法,用来选择动作以及对步骤2建立的任务卸载模型进行训练优化;所述目标Q网络用于计算目标Q值,所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来;所述Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中第二个隐藏层通过Dueling DQN的方法将网络结构分为Value层和Advantage层;
步骤5、深度强化学习中的智能体与MEC环境开始交互,一方面智能体从MEC环境中获取当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态,智能体从MEC环境中获得当前状态,并进行偏好经验池更新,所述偏好经验池更新的方法为:从偏好空间Ψ中选择当前偏好,并判断当前偏好是否在遇到的偏好经验池W中,如果不存在,则将当前偏好添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新;
步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值,从动作空间A中选择当前状态s下的动作a,并执行动作得到向量值奖励r和下一个状态
步骤7、进行经验存储操作:将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态
步骤8、进行经验样本训练:首先从经验缓冲池Φ中随机选择一部分作为经验样本;然后从偏好经验池W中利用非支配排序的方法选择经验偏好,通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励,得到最优的卸载决策;在训练过程中,设Q网络的输入为当前状态s、经验偏好和当前偏好,输出Q值,目标Q网络的输入为下一个状态
上式中,
最后,利用损失函数值更新Q网络,每隔300代将Q网络参数同步给目标Q网络:
步骤9、判断Q网络训练是否结束,从而选择是否输出卸载决策,具体方法为:判断当前迭代是否达到最大迭代次数,是则输出最优卸载决策,其中最优卸载决策是指智能体执行动作a后得到的向量值奖励最大,否则转到步骤5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310034089.2/1.html,转载请声明来源钻瓜专利网。