[发明专利]基于图神经网络和深度强化学习的路由优化方法及系统在审

专利信息
申请号: 202110435964.9 申请日: 2021-04-22
公开(公告)号: CN113194034A 公开(公告)日: 2021-07-30
发明(设计)人: 戴彬;伍仲丽;吕梦达 申请(专利权)人: 华中科技大学
主分类号: H04L12/721 分类号: H04L12/721;H04L12/729;G06N3/04;G06N3/08
代理公司: 华中科技大学专利中心 42201 代理人: 徐美琳
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神经网络 深度 强化 学习 路由 优化 方法 系统
【权利要求书】:

1.一种基于图神经网络和深度强化学习的路由优化方法,其特征在于,该方法包括以下步骤:

S0.测量当前网络状态s,将当前网络状态请求分配的流量需求作为目标流量需求;

S1.根据目标流量需求选取k条源节点到目标节点的最短路径,最短路径的集合称为动作集a,其中k为正整数;

S2.将所述动作集a输入至图神经网络,以计算链路特征并进行聚合和迭代更新,经Q函数得到网络状态s和动作集a的估计Q值;

S3.根据所述估计Q值进行深度强化学习得到当前网络状态下的路由策略,将路由策略反馈给网络拓扑执行相应的路由动作,并得到新的网络状态s’;

S4.结合新网络状态s’判断有无新的流量需求,若有,则将新网络状态s’请求分配的流量需求作为目标流量需求,返回S1;若无,则等待下一次流量需求出现,返回S0。

2.如权利要求1所述的路由优化方法,其特征在于,所述步骤S2具体包括:

对最短路径上的每条链路及其邻居链路计算其链路特征,将与同一节点相连的链路特征进行聚合后,对每条链路的链路特征进行更新;

将上述步骤迭代T次,T为预设值;

将迭代更新后的链路特征进行聚合,经Q函数得到网络状态s和动作集a的估计Q值。

3.如权利要求2所述的路由优化方法,其特征在于,图神经网络为由全连接网络和递归神经网络RNN构成的神经网络模型:

以消息传递算法对链路特征进行计算;

由全连接神经网络完成对链路特征的聚合;

由递归神经网络RNN实现对链路特征的更新。

4.如权利要求1所述的路由优化方法,其特征在于,还包括:定期获取执行路由动作后的奖励r,将奖励r反馈到深度强化学习中进行累积,对深度强化学习进行训练。

5.如权利要求4所述的路由优化方法,其特征在于,还包括:每次获取执行路由动作后的奖励r后,将当前网络状态s、动作集a、奖励r和新的网络状态s’组成元组{s,a,r,s’},将元组进行累积;

从已累积的元组中随机采样对图神经网络进行训练,更新图结构网络的参数。

6.如权利要求3所述的路由优化方法,其特征在于,深度强化学习获取估计Q值,使用∈-greedy探索策略,以概率∈随机选择估计Q值,以概率(1-∈)选择估计Q值的最大值,最终的选择结果作为当前网络状态下的路由策略。

7.如权利要求1所述的路由优化方法,其特征在于,网络状态用向量{x1,x2,…,xN}表示,其中x1为链路可用容量,x2为链路介数,x3为当前流量需求,x4~xN为零值填充的向量值,N为网络状态个数。

8.一种基于图神经网络和深度强化学习的路由优化系统,其特征在于,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的基于图神经网络和深度强化学习的路由优化方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110435964.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top