[发明专利]基于多目标深度强化学习的无人机边缘计算卸载方法在审

申请号：	202310034089.2	申请日：	2023-01-10
公开（公告）号：	CN115827108A	公开（公告）日：	2023-03-21
发明（设计）人：	柴争义;刘旭;李亚伦;袁东;侯昊乐	申请（专利权）人：	天津工业大学
主分类号：	G06F9/445	分类号：	G06F9/445;G06N20/00
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	王利文
地址：	300387 ***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多目标深度强化学习无人机边缘计算卸载方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多目标深度强化学习的无人机边缘计算卸载方法，其特征在于：包括以下步骤：

步骤1、构建无人机-移动边缘计算系统，该无人机-移动边缘计算系统由F个终端设备和M架无人机组成，每个无人机搭载MEC服务器在固定区域内进行任务卸载，使用表示第p个终端设备中的应用程序，p={1, 2, …,F}，F表示终端设备的个数，，其中表示为任务集，表示任务依赖约束，该无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型：

其中MUT 和MUE 分别表示总时延和总能耗，表示任务在无人机执行完成并返回数据的完成时间，表示任务在本地执行时的完成时间，其中q={1, 2,…, n}，n是要卸载的应用中相关的密集型任务的个数，表示任务的完成时间，如果在无人机上执行，则等于，否则等于；表示任务集中最后一个任务的完成时间；和分别表示任务在无人机执行和在本地执行的能耗，表示无人机的飞行能耗；

步骤2、采用深度强化学习的方法对无人机-移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解，求解方法为：通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型，所构建的任务卸载模型表示为(S，A，r，Ψ，f)，该任务卸载模型的目标是最大化向量值奖励r；其中S 表示状态空间；A表示动作空间；是向量值奖励，和分别表示时延的奖励值和能耗的奖励值；Ψ是偏好空间，用于存储不同的偏好方案；是任务卸载策略下的标量化函数, 其中、是指当前偏好；

步骤3、为了求得最小化时延和能耗, 需初始化用户偏好空间：采用NBI法生成均匀分布的N个权重向量，从而为时延和能耗两目标分配当前用户偏好空间；

步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化：所述Q网络采用DoubleDQN与Dueling DQN相结合的方法，用来选择动作以及对步骤2建立的任务卸载模型进行训练优化；所述目标Q网络用于计算目标Q值，所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来；所述Q网络和目标Q网络的结构是完全相同的，均包括一个输入层、两个隐藏层以及一个输出层，其中第二个隐藏层通过Dueling DQN的方法将网络结构分为Value层和Advantage层；

步骤5、深度强化学习中的智能体与MEC环境开始交互，一方面智能体从MEC环境中获取当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态，智能体从MEC环境中获得当前状态，并进行偏好经验池更新，所述偏好经验池更新的方法为：从偏好空间Ψ中选择当前偏好，并判断当前偏好是否在遇到的偏好经验池W中，如果不存在，则将当前偏好添加到偏好经验池W，否则利用当前迭代次数对偏好经验池W进行更新；

步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值，从动作空间A中选择当前状态s下的动作a，并执行动作得到向量值奖励r和下一个状态s´，所述动作空间A包括如下两个动作：在终端设备执行任务和卸载到无人机-移动边缘计算系统上执行任务；

步骤7、进行经验存储操作：将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态s´作为一条经验存入经验缓冲池Φ；

步骤8、进行经验样本训练：首先从经验缓冲池Φ中随机选择一部分作为经验样本；然后从偏好经验池W中利用非支配排序的方法选择经验偏好，通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励，得到最优的卸载决策；在训练过程中，设Q网络的输入为当前状态s、经验偏好和当前偏好，输出Q值，目标Q网络的输入为下一个状态s´、经验偏好和当前偏好，输出目标Q值，利用下式计算损失函数L：

上式中，Q和Q´分别表示Q网络和目标Q网络得到的Q值和目标Q值，γ表示奖励折扣因子，s´是Q网络输出的下一个状态，表示状态s´下，执行当前最优动作后的得到的最大Q值；

最后，利用损失函数值更新Q网络，每隔300代将Q网络参数同步给目标Q网络：

步骤9、判断Q网络训练是否结束，从而选择是否输出卸载决策，具体方法为：判断当前迭代是否达到最大迭代次数，是则输出最优卸载决策，其中最优卸载决策是指智能体执行动作a后得到的向量值奖励最大，否则转到步骤5。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津工业大学，未经天津工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310034089.2/1.html，转载请声明来源钻瓜专利网。

上一篇：自动驾驶仿真测试场景动画视频生成方法及相关装置
下一篇：一种电子商务物流周转储存箱

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多目标深度强化学习的无人机边缘计算卸载方法在审

专利文献下载