[发明专利]基于Q学习的通信网络任务资源调度方法有效

申请号：	202110271286.7	申请日：	2021-03-12
公开（公告）号：	CN113163447B	公开（公告）日：	2022-05-20
发明（设计）人：	桂劲松;刘尧	申请（专利权）人：	中南大学
主分类号：	H04W28/08	分类号：	H04W28/08;H04W72/12
代理公司：	长沙永星专利商标事务所(普通合伙) 43001	代理人：	周咏;米中业
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于学习通信网络任务资源调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Q学习的通信网络任务资源调度方法，包括如下步骤：

S1.获取通信网络的实时通信状态和通信参数，并初始化R表；具体为采用如下步骤进行初始化：

前提：每个初始状态中资源项的值不超过所有节点初始化资源量之和；

Ⅰ.对于每一个均重复进行如下步骤Ⅱ～步骤Ⅷ；其中为任务调度节点i在时刻0的状态；S_i为任务调度节点i的状态空间集合；

Ⅱ.对于每一个均重复进行如下步骤Ⅲ～步骤Ⅷ；为任务调度节点i在时刻0采取的行动；A_i为任务调度节点i的行动集合；

Ⅲ.根据初始行动估算拟调度任务量；

Ⅳ.根据拟调度任务量估算任务需要的资源量；

Ⅴ.根据拟调度任务所需资源量与初始状态中资源项的值估算资源利用率

Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值；

Ⅶ.进行判断：若初始状态中任务项的值不大于资源项的值，则将节点损毁概率的均值作为初始任务成功率否则，将初始任务成功率设置为0；

Ⅷ.初始化任务调度节点i在时刻0获得的回报值r_i⁰：ε₂为权重因子，且取值范围为0～1；

S2.通信网络的每一个任务调度节点进行自身Q表的训练；具体为采用如下步骤进行训练：

重复如下步骤A～步骤F直至重复次数达到设定的次数K：

A.随机选择一个初始状态为任务调度节点i在时刻t的状态；S_i为任务调度节点i的状态空间集合；

B.设定第一变量Q_max的值为0；

C.对于每一个均进行如下步骤a～步骤c；为任务调度节点i在时刻t采取的行动；A_i为任务调度节点i的行动集合：

a.采用如下算式计算任务调度节点i在t+1时刻的Q值：

式中为任务调度节点i在t+1时刻的Q值；α为学习因子，取值范围为[0,1]，且α值越大表明行动的执行者越看重当前的回报；为任务调度节点i在时刻t的Q值；为任务调度节点i在时刻t+1获得的回报值；β为折扣因子，取值范围为[0,1)，β取值越大表明行动的执行者更重视未来的回报；为任务调度节点i在时刻t采取行动后从状态转变而来的新状态；为任务调度节点i在新状态下能获得最大Q值的行动；为任务调度节点i在时刻t+1在新状态下采取行动的Q值；

b.更新Q_i中相应的元素；Q_i为任务调度节点i的Q表；

c.对更新后的Q_i中的元素进行判断：

若则将Q_max的值更新为同时将a_max的值更新为a_max为任务调度节点i在时刻t+1在状态下能获得最大Q值的行动；

否则，Q_max和a_max不变；

D.设置探测概率

E.产生随机数ε，ε的取值范围为0～1；

F.对探测概率和产生的随机数ε进行判断：

若则再次进行判断：若行动a_max能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B；否则，跳转回步骤A；

否则，从集合A_i中随机选择一个除a_max之外的行动，并再次进行判断：若被选择的行动能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B；否则，跳转回步骤A；

S3.通信网络的每一个任务调度节点进行自身Q表的决策；具体为采用如下步骤进行决策：

(1)初始设定和第二变量V＝0；

(2)对于每一个均进行如下操作：

根据从Q_i中查到

进行判断：若则将赋值给V，同时将赋值给a₀，a₀为任务调度节点i在时刻t在状态下能获得最大Q值的行动；

否则，V和a₀不变；

(3)进行判断：若行动a₀能够将状态转换到下一个状态则采用如下算式计算

(4)更新Q_i中相应的元素；

(5)将的值赋值给并回到步骤(2)；

S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度；

S5.通信网络的每一个任务调度节点进行自身R表的更新；

S6.重复步骤S2～S5，进行持续的通信网络任务资源调度。

2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法，其特征在于步骤S5所述的通信网络的每一个任务调度节点进行自身R表的更新，具体为采用如下步骤进行更新：

1)统计从l_t到l_t+τ_t期间资源视图中的资源总量，并记为f_i^t；l_t为任务调度与执行虚拟时间t；τ_t为任务调度与执行周期；资源视图为当前调度期内调度节点i的可见执行节点集合；

2)统计从l_t到l_t+τ_t期间已调度执行的任务的任务量并记为并统计所占用的资源总量；

3)根据步骤1)和步骤2)的统计结果，估算资源利用率并记为资源利用率的定义为实际占用资源量与资源总量的比值；

4)根据从l_t到l_t+τ_t期间每个执行任务的节点的损毁率，估算任务执行的成功率；

5)基于步骤4)得到的每个任务的成功率，统计所有任务的平均成功率并记为

6)采用如下算式计算任务调度节点i在时刻t获得的回报值

式中ε₁为权重因子，且取值范围为0～1；为任务调度节点i在时刻t统计的所有任务的平均成功率；为任务调度节点i在时刻t统计的资源利用率；

7)根据在回报表R_i中找到最近的状态；

8)根据在回报表R_i中找到最近的行动；

9)使用更新回报表R_i中找到的最近的状态以及找到的最近的行动所对应的回报值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110271286.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种梯度组织的金属材料高通量制备方法
下一篇：高产对氨基苯丙氨酸的重组大肠杆菌构建方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W28-00 网络业务量或资源管理
H04W28-02 .业务量管理，例如流量控制或拥塞控制
H04W28-16 .中央资源管理；资源协商，例如协商带宽或QoS[服务质量]
H04W28-18 ..协商无线通信参数
H04W28-24 ..协商SLA[业务等级协定]；协商QoS[服务质量]
H04W28-26 ..资源预留

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Q学习的通信网络任务资源调度方法有效

专利文献下载