[发明专利]基于图神经网络和深度强化学习的路由优化方法及系统在审
| 申请号: | 202110435964.9 | 申请日: | 2021-04-22 |
| 公开(公告)号: | CN113194034A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 戴彬;伍仲丽;吕梦达 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | H04L12/721 | 分类号: | H04L12/721;H04L12/729;G06N3/04;G06N3/08 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 徐美琳 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 神经网络 深度 强化 学习 路由 优化 方法 系统 | ||
1.一种基于图神经网络和深度强化学习的路由优化方法,其特征在于,该方法包括以下步骤:
S0.测量当前网络状态s,将当前网络状态请求分配的流量需求作为目标流量需求;
S1.根据目标流量需求选取k条源节点到目标节点的最短路径,最短路径的集合称为动作集a,其中k为正整数;
S2.将所述动作集a输入至图神经网络,以计算链路特征并进行聚合和迭代更新,经Q函数得到网络状态s和动作集a的估计Q值;
S3.根据所述估计Q值进行深度强化学习得到当前网络状态下的路由策略,将路由策略反馈给网络拓扑执行相应的路由动作,并得到新的网络状态s’;
S4.结合新网络状态s’判断有无新的流量需求,若有,则将新网络状态s’请求分配的流量需求作为目标流量需求,返回S1;若无,则等待下一次流量需求出现,返回S0。
2.如权利要求1所述的路由优化方法,其特征在于,所述步骤S2具体包括:
对最短路径上的每条链路及其邻居链路计算其链路特征,将与同一节点相连的链路特征进行聚合后,对每条链路的链路特征进行更新;
将上述步骤迭代T次,T为预设值;
将迭代更新后的链路特征进行聚合,经Q函数得到网络状态s和动作集a的估计Q值。
3.如权利要求2所述的路由优化方法,其特征在于,图神经网络为由全连接网络和递归神经网络RNN构成的神经网络模型:
以消息传递算法对链路特征进行计算;
由全连接神经网络完成对链路特征的聚合;
由递归神经网络RNN实现对链路特征的更新。
4.如权利要求1所述的路由优化方法,其特征在于,还包括:定期获取执行路由动作后的奖励r,将奖励r反馈到深度强化学习中进行累积,对深度强化学习进行训练。
5.如权利要求4所述的路由优化方法,其特征在于,还包括:每次获取执行路由动作后的奖励r后,将当前网络状态s、动作集a、奖励r和新的网络状态s’组成元组{s,a,r,s’},将元组进行累积;
从已累积的元组中随机采样对图神经网络进行训练,更新图结构网络的参数。
6.如权利要求3所述的路由优化方法,其特征在于,深度强化学习获取估计Q值,使用∈-greedy探索策略,以概率∈随机选择估计Q值,以概率(1-∈)选择估计Q值的最大值,最终的选择结果作为当前网络状态下的路由策略。
7.如权利要求1所述的路由优化方法,其特征在于,网络状态用向量{x1,x2,…,xN}表示,其中x1为链路可用容量,x2为链路介数,x3为当前流量需求,x4~xN为零值填充的向量值,N为网络状态个数。
8.一种基于图神经网络和深度强化学习的路由优化系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的基于图神经网络和深度强化学习的路由优化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110435964.9/1.html,转载请声明来源钻瓜专利网。





