[发明专利]一种基于深度强化学习的移动边缘计算任务分配方法在审
申请号: | 202110835323.2 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113568727A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 赵楠;季英强;白茂森;曾春艳;刘聪;胡胜;王娟 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 移动 边缘 计算 任务 分配 方法 | ||
1.一种基于深度强化学习的移动边缘计算任务分配方法,其特征在于,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
2.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
其中,为第k个边缘云参与第m个终端设备的计算任务比例,为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t),根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务和计算资源分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
s.t.
其中,F为每个边缘云最大的计算资源。
3.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务和计算资源策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110835323.2/1.html,转载请声明来源钻瓜专利网。