[发明专利]一种基于深度强化学习的时间敏感网络通信流调度方法有效
申请号: | 202110257321.X | 申请日: | 2021-03-09 |
公开(公告)号: | CN113285872B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 万海;钟春蒙;赵曦滨 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L45/12 | 分类号: | H04L45/12;H04L45/28;H04L45/00;H04L47/125;G06N3/04;G06N3/08 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 时间 敏感 网络 通信 调度 方法 | ||
本发明公开了一种基于深度强化学习的时间敏感网络通信流调度方法,其步骤如下:通过构筑基础、系统建模、系统框架、时隙选择、状态建模、动作建模、环境建模、深度神经网络来实现整体的构成,并通过错误恢复、实验论证和实验对象对整体进行检测,保证整体的正常使用。该基于深度强化学习的时间敏感网络通信流调度方法,提出了一种适用于TS流调度的基于DRL的建模、训练和应用方法,使用不同的数据训练就能够应用在不同的网络环境,且提出了一些优化方法,使用有向图表达网络信息使得DRLS能够动态的调度TS流并且能够在网络拓扑变化时迅速恢复,控制门技术的使用缓解了DNN的不确定性并且提高了调度方法的调度能力和可靠性。
技术领域
本发明涉及通信流调度方法技术领域,具体为一种基于深度强化学习的时间敏感网络通信流调度方法。
背景技术
时间敏感网络(TSN)是工业公职应用领域的关键技术,这一领域通常有实时网络通信需求,TSN网络中最具挑战性的任务之一是设计合适的路由配置以实现时敏通信的时间隔离和端到端实时性的保证,这一任务也被称为调度,时间敏感通信需求(TS流)可能会因应用通信需求的变化或网络拓扑的变化而发生变化,在这种情况下,调度方法必须要尽快计算新的调度,在学术界和工业界主要有两种调度方法:基于求解器的方法和基于启发式规则的方法,基于求解器的方法一般使用整数线性求解器(ILP)求解调度约束得到调度方案,这种方法非常耗时,基于启发式规则的方法相对来说会快一些,但是它们很难为复杂网络计算出调度,我们提出了一种新颖的基于启发式规则并充分利用深度强化学习工具的调度方法——基于深度强化学习的时间敏感网络通信流调度方法(DRLS),拥有端到端实时通信保障的时间敏感通信一直以来都是航空控制领域研究的热点问题,其他快速发展的领域,例如工业控制和列车通信也都逐渐加入确定性网络通信的浪潮,传统的“尽力而为”网络主要关注点在于高吞吐量和低时延,但是它无法满足实时传输的需求,TSN被提出来就是为了解决实时数据的确定性传输问题,TSN是一个网络通信协议用来将以太网中的时间敏感技术标准化,使其可以被广泛使用,在TSN中,最具挑战性的任务是为所有的网络设备找到一个合理的配置,使其可以传输所有TS通信流,这个配置也叫作调度表,调度表需要满足每一条流的时延都小于最大端到端时延,同时任意两条流之间必须在时间上隔离开来,计算调度表的过程称为调度,它不仅包括所有TS流的路由,还包括TS流所有帧的发送、转发和接收时间点,TS调度问题通常是一个多约束优化问题,需要专家知识对相应问题进行分析和建模,TS调度问题被证明是NP完全的,因此,研究人员致力于寻找一个近似的局部最优解(调度方法),这个近似解可以在合理时间内计算出次优的调度表,可调度性(即给定TS流需求找到合适调度的能力)和运行时间是评估调度方法的两个最重要的指标,一般来说,TS流的调度是根据网络拓扑和TS流的需求来计算的,然而,TS流需求和网络拓扑可能是不断变化的,网络拓扑的变化或设备故障会导致TS流需求的变化,为不断变化的TS流需求计算调度表,我们称之为可恢复性,也是调度方法的一个重要性能标准,TS调度方法主要分为两类:基于求解器的调度方法和基于启发式规则的调度方法,基于求解器的方法,如基于SMT求解器的方法和基于ILP求解器的方法可以实现极高的链路利用率,为包含TS流和BE流的混合网络计算调度,但该方法计算复杂度高,可恢复性差,另一方面,传统的基于启发式的方法(例如,基于禁忌的搜索方法不够一般化,只有在特定场景中才会有好的结果,因此,设计一种高效、高质量的启发式算法是解决TS调度问题的关键,TS调度问题本质上是一类组合优化问题,目前,深度强化学习(DRL)已经被用来解决调度问题,一些研究者使用DRL训练高质量的领域特定主体(agent),并使用该主体解决相应的调度问题,理想的主体(agent)是一组用于调度的启发式规则,本文提出了一个基于DRL的TSN调度方法(DRLS),使用DRL训练主体(agent)在许多复杂的网络场景中动态调度TS流,这些动态场景包括TS流需求变化(增加或减少)的场景和网络拓扑变化(如网络节点或链路故障)的场景,在计算TS流的调度时,DRLS主体(agent)表现为一个精心设计的启发式规则,通过使用不同的网络环境来训练DRLS,可以得到适应各种网络环境的主体(agent),DRLS有两个优势:相对较低的运行时间和强大的可调度性,和基于ILP求解器的方法相比,DRLS极大的减少了运行时间和计算复杂度,并且有更好的可恢复性,和传统的启发式方法相比,DRLS在各种场景中有好得多的可调度性,调度TS流需要确定路由以及报文在每一个网络节点上发出的时间,因此DRL需要详细描述网络资源和TS流需求,但是,如果描述的太过复杂,动作空间就会变得过大,同时也会增加计算复杂度,DRLS用有向图表达网络拓扑,其中记录了网络资源和TS流需求信息,我们通过使用时隙这个概念,同时将路由分解为一系列的链路组合来降低DRL模型的动作空间,主体(agent)的设计也是一个很大的挑战,DRLS的主体(agent)是一个深度神经网络(DNN),主体(agent)必须要获取网络的全局信息才能够为TS流计算调度,我们使用一个图神经网络(GNN)来表达全局网络特征,比如网络节点间的可达性信息,这使得调度方法能够在不依赖大量提前计算好的信息的情况下从网络拓扑变化中恢复,DRLS的训练对于其可可调度性来说也是至关重要的,所有的动作决策需要和其奖励值一起存储在经历池中,这些经历会被用来训练主体(agent)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257321.X/2.html,转载请声明来源钻瓜专利网。