[发明专利]一种基于深度强化学习的计算分流优化方法有效
申请号: | 202011133101.8 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112433843B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 陈柏平;胡春静;赵中原;高慧慧;骆雪婷 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08;H04L67/10 |
代理公司: | 北京中海智圣知识产权代理有限公司 11282 | 代理人: | 曾京京 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 计算 分流 优化 方法 | ||
1.一种基于深度强化学习的计算分流优化方法,其特征在于,包括以下步骤:
步骤1,用户端进行计算分流前,用户端向雾节点发送自身状态信息,自身状态信息包括信道增益、任务大小、CPU处理频率;
步骤2,雾节点集中接收系统中的用户状态信息,并将这些信息输入神经网络,输出系统的计算分流决策和资源分配方案:
步骤2.1,用户端的信息将通过平坦衰落信道向雾节点发送自身状态相关的信息rk(t),雾节点接收到用户信息可表示为下式(1):
yk(t)=hk(t)rk(t)+n0……(1),
上式(1)中,hk(t)表示用户Uk与雾节点之间的平台信道衰落,n0表示加性高斯白噪声;
步骤2.2,雾节点接收到用户状态信息之后,将雾节点与各个用户之间的信道增益向量hk(t)输入深度神经网络NET(h;θ,b),然后从深度神经网络的输出端得到系统最优的计算分流决策和资源分配方案;其中雾节点将用户的信道状态向量h(t)={h1(t),...,hK(t)}输入神经网络NET(h;θ,b)后,首先通过神经网络DNN1,神经网络DNN1的输出即为系统的最优计算分流解最优计算分流解表示如下式(2):
鉴于神经网络的输出值为[0,1]之间的连续值,需要通过一个映射模块将连续值映射到{0,1}二值域内,映射模块首先随机生成M0个可行解,表示为且再计算这M0个可行解与DNN1的输出之间的相似度,取相似度最大的前M个解作为系统最优计算分流决策解的备选解:相似度函数定义为下式(3):
上式(3)中,fi表示第i个计算分流决策解,表示DNN1输出的计算分流决策解;
步骤2.3,将得到的可行解与用户的信道状态向量h(t)={h1(t),...,hK(t)}一起输入神经网络DNN2,进行系统的资源分配,DNN2的输出表示如下式(4):
上式(4)中,表示在分流决策为的条件下,系统的最优资源分配方案;
步骤2.4,在得到DNN2的输出之后,同样需要经过一个映射模块,将得到的解重构成可行解域内的解,并取其中最佳的一个解作为系统的计算分流决策与资源分配解,定义如下式(5):
上式(5)中,x*(t)表示最终确定的最优分流决策解,r*(t)表示系统的最优资源分配方案;
步骤3,雾节点反馈计算分流决策和资源分配方案给系统中的用户;
步骤4,雾节点通过反向传播的方式更新神经网络参数;
步骤5,用户端根据步骤3中雾节点反馈的计算分流决策,分别将计算任务留在本地执行、分流到雾节点执行、分流到云端执行;
步骤6,云节点与雾节点分别处理接收到的计算任务,并将处理结果通过回程链路和无线链路反馈给用户。
2.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤1所述用户端向雾节点发送自身状态信息为:在一个有雾节点和云节点组成的计算分流系统中,存在着K个用户,分别用U1,...,UK表示,在用户开始进行任务分流前,用户将包括用户与雾节点之间的信道增益hk(t)、计算任务的大小Lk,以及用户自身的cpu处理速率wk在内的信息将通过无线信道传输到雾节点端。
3.按照权利要求1所述基于深度强化学习的计算分流优化方法,其特征在于,步骤3所述雾节点反馈计算分流决策及资源分配解为:
雾节点会将计算分流优化算法求解得到的计算分配策略以及资源分配方案通过无线链路反馈给系统中的各个用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011133101.8/1.html,转载请声明来源钻瓜专利网。