[发明专利]基于Q学习的通信网络任务资源调度方法有效
申请号: | 202110271286.7 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113163447B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 桂劲松;刘尧 | 申请(专利权)人: | 中南大学 |
主分类号: | H04W28/08 | 分类号: | H04W28/08;H04W72/12 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 通信 网络 任务 资源 调度 方法 | ||
1.一种基于Q学习的通信网络任务资源调度方法,包括如下步骤:
S1.获取通信网络的实时通信状态和通信参数,并初始化R表;具体为采用如下步骤进行初始化:
前提:每个初始状态中资源项的值不超过所有节点初始化资源量之和;
Ⅰ.对于每一个均重复进行如下步骤Ⅱ~步骤Ⅷ;其中为任务调度节点i在时刻0的状态;Si为任务调度节点i的状态空间集合;
Ⅱ.对于每一个均重复进行如下步骤Ⅲ~步骤Ⅷ;为任务调度节点i在时刻0采取的行动;Ai为任务调度节点i的行动集合;
Ⅲ.根据初始行动估算拟调度任务量;
Ⅳ.根据拟调度任务量估算任务需要的资源量;
Ⅴ.根据拟调度任务所需资源量与初始状态中资源项的值估算资源利用率
Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值;
Ⅶ.进行判断:若初始状态中任务项的值不大于资源项的值,则将节点损毁概率的均值作为初始任务成功率否则,将初始任务成功率设置为0;
Ⅷ.初始化任务调度节点i在时刻0获得的回报值ri0:ε2为权重因子,且取值范围为0~1;
S2.通信网络的每一个任务调度节点进行自身Q表的训练;具体为采用如下步骤进行训练:
重复如下步骤A~步骤F直至重复次数达到设定的次数K:
A.随机选择一个初始状态为任务调度节点i在时刻t的状态;Si为任务调度节点i的状态空间集合;
B.设定第一变量Qmax的值为0;
C.对于每一个均进行如下步骤a~步骤c;为任务调度节点i在时刻t采取的行动;Ai为任务调度节点i的行动集合:
a.采用如下算式计算任务调度节点i在t+1时刻的Q值:
式中为任务调度节点i在t+1时刻的Q值;α为学习因子,取值范围为[0,1],且α值越大表明行动的执行者越看重当前的回报;为任务调度节点i在时刻t的Q值;为任务调度节点i在时刻t+1获得的回报值;β为折扣因子,取值范围为[0,1),β取值越大表明行动的执行者更重视未来的回报;为任务调度节点i在时刻t采取行动后从状态转变而来的新状态;为任务调度节点i在新状态下能获得最大Q值的行动;为任务调度节点i在时刻t+1在新状态下采取行动的Q值;
b.更新Qi中相应的元素;Qi为任务调度节点i的Q表;
c.对更新后的Qi中的元素进行判断:
若则将Qmax的值更新为同时将amax的值更新为amax为任务调度节点i在时刻t+1在状态下能获得最大Q值的行动;
否则,Qmax和amax不变;
D.设置探测概率
E.产生随机数ε,ε的取值范围为0~1;
F.对探测概率和产生的随机数ε进行判断:
若则再次进行判断:若行动amax能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B;否则,跳转回步骤A;
否则,从集合Ai中随机选择一个除amax之外的行动,并再次进行判断:若被选择的行动能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B;否则,跳转回步骤A;
S3.通信网络的每一个任务调度节点进行自身Q表的决策;具体为采用如下步骤进行决策:
(1)初始设定和第二变量V=0;
(2)对于每一个均进行如下操作:
根据从Qi中查到
进行判断:若则将赋值给V,同时将赋值给a0,a0为任务调度节点i在时刻t在状态下能获得最大Q值的行动;
否则,V和a0不变;
(3)进行判断:若行动a0能够将状态转换到下一个状态则采用如下算式计算
(4)更新Qi中相应的元素;
(5)将的值赋值给并回到步骤(2);
S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;
S5.通信网络的每一个任务调度节点进行自身R表的更新;
S6.重复步骤S2~S5,进行持续的通信网络任务资源调度。
2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S5所述的通信网络的每一个任务调度节点进行自身R表的更新,具体为采用如下步骤进行更新:
1)统计从lt到lt+τt期间资源视图中的资源总量,并记为fit;lt为任务调度与执行虚拟时间t;τt为任务调度与执行周期;资源视图为当前调度期内调度节点i的可见执行节点集合;
2)统计从lt到lt+τt期间已调度执行的任务的任务量并记为并统计所占用的资源总量;
3)根据步骤1)和步骤2)的统计结果,估算资源利用率并记为资源利用率的定义为实际占用资源量与资源总量的比值;
4)根据从lt到lt+τt期间每个执行任务的节点的损毁率,估算任务执行的成功率;
5)基于步骤4)得到的每个任务的成功率,统计所有任务的平均成功率并记为
6)采用如下算式计算任务调度节点i在时刻t获得的回报值
式中ε1为权重因子,且取值范围为0~1;为任务调度节点i在时刻t统计的所有任务的平均成功率;为任务调度节点i在时刻t统计的资源利用率;
7)根据在回报表Ri中找到最近的状态;
8)根据在回报表Ri中找到最近的行动;
9)使用更新回报表Ri中找到的最近的状态以及找到的最近的行动所对应的回报值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271286.7/1.html,转载请声明来源钻瓜专利网。