[发明专利]基于多智能体强化学习的移动边缘计算卸载方法有效

申请号：	202011067955.0	申请日：	2020-10-08
公开（公告）号：	CN112367353B	公开（公告）日：	2021-11-05
发明（设计）人：	李轩衡;汪意迟;李慧瑶	申请（专利权）人：	大连理工大学
主分类号：	H04L29/08	分类号：	H04L29/08;H04W28/08;G06N3/04;G06N3/08;G06N20/00
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;侯明远
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能强化学习移动边缘计算卸载方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种基于多智能体强化学习的移动边缘计算卸载方法，属于边缘计算、无线网络领域，为“多用户‑多边缘节点”的复杂场景提供了一种智能的任务卸载方法。该方法采用多智能体强化学习算法，各用户设备在本地建立Actor和Critic深度学习网络，分别根据自己及其它设备的状态和动作进行动作选择和动作打分，综合考虑频谱资源、计算资源和能量资源，以优化任务延迟为目标制定卸载和资源分配策略。该方法不依赖网络具体模型，各设备能够通过“探索‑反馈”的学习过程自主智能地进行最优策略制定，且能够适应网络环境的动态变化。

技术领域

本发明属于边缘计算、无线网络领域，涉及一种基于多智能体深度强化学习的计算卸载方法，特别涉及到计算任务卸载策略和多维资源联合分配问题。

背景技术

随着移动互联网技术的不断发展，虚拟现实、在线游戏、人脸识别、图像处理等计算密集型新兴应用迅速崛起。然而，由于终端设备的计算能力有限，这些计算密集型应用的普及受到限制。为解决该问题，云计算应运而生，其将终端设备端复杂的计算任务上传至计算能力更强大的云服务器上执行，以此来解除这些新兴应用对设备计算能力的依赖。然而传统的云计算解决方案存在较大的传输延迟和过高的回程带宽需求问题，难以满足未来海量的计算需求，因此，移动边缘计算的概念被提出。

移动边缘计算是指在移动网络边缘部署计算和存储资源，为移动网络提供IT服务环境和计算能力，用户可以将部分或全部计算任务交给边缘代理服务器进行处理，从而为用户提供超低时延的计算解决方案。其中，如何制定计算卸载策略是移动边缘计算的关键问题，主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性，综合考虑能耗、响应时间等因素，决定是否卸载、卸载目标、卸载任务量等策略；资源分配重点解决终端设备在卸载过程中的资源占用问题，主要包括设备的能量和计算资源的分配。

目前针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法，即假设网络中心节点已知全局信息，以最小化能耗或最小化延迟为目标，以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解，从而获得最优策略。然而，这种决策优化问题通常是NP困难问题，尤其当网络规模较大时，即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外，网络的状态通常是动态变化的，这需要中心节点不断地求解复杂的优化问题，且难以自适应地跟踪网络的动态环境。

近年来，随着人工智能技术的迅速发展，强化学习算法受到了广泛关注。强化学习是机器学习的一个重要分支，主要由智能体、环境、状态、动作和奖励组成。智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为，从而使智能体随着时间的推移自适应地实现特定目标的最优。由于强化学习是对动作进行评价并根据反馈修正动作选择及策略，所以其不需要依赖先验知识，且能够自适应地跟踪环境变化，适合解决较为复杂的决策问题，因此可以借助强化学习算法实现智能的计算卸载。考虑到网络中通常存在多个终端设备需要进行决策制定，且各自策略会彼此影响，本发明设计基于多智能体强化学习的计算卸载方法。与传统的的优化求解方法相比，该方法不需要求解复杂的优化问题，可有效降低决策制定的时间开销，更具有可行性，此外，各设备能够自适应地跟踪网络环境变化，智能地自主制定策略。因此，本发明设计的方法具有更佳的应用前景。

发明内容

本发明的目的是从网络总体性能角度出发，综合考虑用户设备的状态以及网络的通信与计算资源，为网络中各用户设备提供一种基于多智能体深度强化学习的智能边缘计算卸载方法。

本发明中，分别用和表示网络中存在的N个用户设备和M个边缘节点。考虑周期性时隙系统，各用户设备在每个时隙将进行计算卸载策略制定，包括任务的卸载比例、卸载的目标边缘节点、传输所用信道以及任务传输和本地执行的能量分配。用δ(秒)表示单个时隙的长度，并以整数j作为索引。本发明提供的基于多智能体深度强化学习的智能边缘计算卸载方法具体步骤如下：

第1、定义网络中各用户设备n在时隙j的状态集，动作集和奖赏函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011067955.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种湿垃圾制备RDF的方法及其设备
下一篇：基于强化学习的跳跃式频谱感知方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多智能体强化学习的移动边缘计算卸载方法有效

专利文献下载