[发明专利]一种基于深度强化学习的时间敏感网络通信流调度方法有效

申请号：	202110257321.X	申请日：	2021-03-09
公开（公告）号：	CN113285872B	公开（公告）日：	2022-09-23
发明（设计）人：	万海;钟春蒙;赵曦滨	申请（专利权）人：	清华大学
主分类号：	H04L45/12	分类号：	H04L45/12;H04L45/28;H04L45/00;H04L47/125;G06N3/04;G06N3/08
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	陈英俊
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习时间敏感网络通信调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的时间敏感网络通信流调度方法，其特征在于，包括以下步骤：

步骤一：建立基于强化学习的神经网络，在神经网络中，定义x作为输入x∈X^D，x是从真实分布中采样得到的，使用f来表达一个激活函数，θ是神经网络中可以训练更新的参数集合，b是一个偏差项，还可以给f加上一个上标l表示神经网络的某一层，然后用y来表示这一层的输出，这样，神经网络第l层的输出可以表示为y^l＝f^l(θx+b).，强化学习RL包含了主体和环境的交互，在t时间点，主体根据当前的状态wt选择合适的动作at，然后环境给出这个动作的奖励值at并计算出下一个状态wt+1，下一个状态wt+1会返回给主体，这个过程可以形式化的表达为一个五元组，＜W，A，P，R，γ＞，其中w_t∈W，a_t∈A是t时间点的状态和动作，R是奖励值的分布情况，给定一个(状态，动作)对(w_t，a_t)，r_t～R(·|ω_t，a_t)，奖励值就可以被计算出来，用P表示状态转移可能性矩阵，w_t+1～P(·|ω_t，a_t)，用r表示一个衰减参数，这个参数的值一般接近1，策略pi，π：W→A指定了在状态wt下选择的动作，强化学习的目标就只要找到一个最优策略pi*，从而最大化累计衰减奖励∑_t≥0γ^tr_t；

步骤二：系统建模，网络拓扑被建模为一个有向图，其中V表示节点的集合，每一个节点都是网络中的一个交换机，E是链路的集合，每一个链路包含两个节点，如果两个节点vm和vn之间有一条物理链路，那么(v_m，v_n)，(v_n，v_m)∈E，一个节点对中的前一个节点代表链路的源节点，后一个节点代表链路的目标节点，所有的节点都可以作为TS流的源节点和目标节点，并且可以转发报文，且TS通信需要使用流的概念来建模，一条流是一个周期性的单播消息，只有一个源节点和一个目标节点，使用S来表示所有TS流的集合，一个TS流s_k∈S使用一个五元组(X_k，Y_k，C_k，T_k，L_k)来表示，其中Xk和Yk表示TS流的源节点和目标节点，Ck，Tk，Lk分别表示以字节为单位的报文大小，以毫秒为单位的TS流周期和最大端到端时延，由于不同的TS流具有不同的周期，弘周期大于或者等于所有流的周期，弘周期使用Ts来表示，通过计算所有流周期的最小公倍数得到，将一条TS流从源节点到目标节点的路由表示为一个链路的集合{e₀，e₁，...，e_n}，其中链路e0的源节点是Xk，en的目标节点是Yk，而且ei和ei+1是相邻的两条链路，如果使用ei.src和ei.dst分别表示一条边的源节点和目标节点的话，那么会得到如下约束：将一条TS流s_k∈S流经e_i∈E的第1个消息实例表示为其中是流sk流经ei的所有帧的集合，为了调度TS流，需要指定通过ei的时间，为了简化问题，将一毫秒划分为a个时隙，时隙用t表示，每一个时隙包含相等长度的时间，在一个弘周期内，一共包含了T_s×α个时隙，选择其中一个时隙通过ei，将链路ei的第j个时隙tj的状态表示为其中是ei的所有时隙的状态，是一个整型数，表示使用时隙tj通过ei的帧的数量，一个时隙最多只能被一个帧占用，因此有如下约束：

将所有TS流的周期设定为2的倍数：T_k∈{4，8，16，32，64，128，256，512，1024，2048}系统模型有两个基础假设，首先是所有网络节点都有分布式时间同步能力，其次所有设备都有实时转发报文的能力，在静态调度环境中，在调度开始时就能够知道所有的TS流需求，并且这些需求不会变化，DRLS需要解决的动态调度问题中，TS流需求是会随着时间变化的，DRLS逐一为这些TS流生成调度，新的流的调度计划不能和已有流的调度计划冲突；

步骤三：系统框架，DRLS可以被大致分为三个部分，状态部分抓取TS流的当前信息以及网络拓扑的整体信息，主体是一个决策者决定采取何种动作，而环境在一个动作被选取出来之后负责维护环境中的各种资源并且给出当前动作的奖励，当调度开始时，状态部分根据网络资源信息和TS流信息计算出当前状态w_t∈W，主体部分使用一个深度神经网络得到路由决策，使用LD方法得到时隙决策，这两部分共同构成了当前动作决策at，环境部分为主体部分根据调度目标计算出当前动作的奖励值rt，并且在实施动作at维护网络资源状态后计算出下一个状态wt+1，这个奖励值和调度的时延和完成状态有关，奖励值用来持续的提高DNN的决策能力，并通过编码神经网络和策略神经网络来实现DRLS的主体部分，编码网络提取网络的全局信息以及每一条链路的编码向量，策略网络用来获得动作决策；

步骤四：时隙选择，选择一个合适的时隙tj能够让边ei承载更多的TS流，周期小的TS流比周期大的TS流占用更多的时隙，所有这些时隙必须是空闲的，如果一个时隙tj只能承载周期大的流，用一个函数G(e_i，t_j，T_k)表示一条边ei的一个时隙tj是否可以承载一条周期为Tk的流，那么就有其中T_k∈T是一条TS流sk的周期，而Ts是所有流的弘周期，接下来就可以定义一个时隙的度ρ(e_i，t_j)：高度时隙无论大周期流还是小周期流都可以承载，而低度时隙只能承载大周期流，LD方法倾向于在可用的时隙中选择一个度比较低的，这样可以让整个TSN网络承载更多的流，时隙t2，t5，t6，t12，t14是已经被占用的，其他时隙是空闲的，时隙t3可以承载一个周期为4的TS流，因为这条流所需的全部时隙，t3，t7，t11，t15都是可用的，时隙t0不能承载这条流因为时隙t12是不可用的，如果用时隙t3来承载一个周期为8的流，那么网络里面就没有任何一个时隙可以承载一个周期为4的流，因此，LD时隙选择方法就会倾向于选择时隙t0来承载一个周期为8的TS流而非t3，使得端到端时延最短也是调度方法的重要目标，选择一个早一点的时隙能够降低时延，因此LD时隙选择方法会在可用的低度时隙中选择一个最早的；

步骤五：状态建模，wt是主体选择动作at是所需的全部信息，使用一个由实数组成的向量来实现wt，这个向量表示一条边的信息，wt由以下六个部分组成：1)当前这条边到目标节点Yk的距离，距离为0则表示这个报文已经到达了目标节点Yk，一般来说，边与目标节点的距离越近越好，当前这条边是不是上一个动作选择的边的邻边，或者是源节点所在的边，TS流的报文，当前要么存储在上一个动作选出的边的目标节点中，要么存储在源节点Xk中，因此，当前动作选出的边一定要是上一个动作选出的边的邻边，当前这条边是否会和之前已经选中的边构成环路，TS流的路由需要避免环路的出现，因为环路会浪费网络资源并且导致时延变大，当前这条边的拥挤程度，拥挤程度表示为空闲时隙数量与总时隙数量的比值，一般来说，选择一个不那么拥挤的边可以保证整个网络的负载均衡，并且避免瓶颈链路的产生，当前这条边是否含有至少一个可用的时隙，如果一条边没有可以承载当前TS流的时隙，那么这条边就是不能被选中的，当前边的所有可用时隙的度的最小值，度的定义如前所述，这是帮助DNN选择合适边的重要信息，除了wt，也会计算一个|E|×|E|×D矩阵M，这里的|E|表示边的数量，而D表示任意两条边之间的最大距离，两个边的距离定义为它俩之间的最短路由包含的网络节点数量，用Mijd表示M的(i，j，d)位置的元素，那么M的计算方式可以表达为：M_i，j，d＝1意味着如果边ei和ej之间有一条包含d个节点的路由，wt在每一次做动作决策之前都会被重新计算，而M只会为一个网络拓扑计算一次，Wt表示每一条单独的链路的信息而M包含的是拓扑的全局信息，这些信息足够主体租出正确的动作决策，同时也解决了前文提到的网络状态表达挑战；

步骤六：动作建模，使用DRL解决调度问题时，由于可选路由的数量巨大，同时每一帧的发送时间也有太多的选择，DRL的动作空间会非常大，DRLS通过将路由分解为连续的边的组合来降低动作空间的大小，每一个动作只包含一个边而不是整个路由，也就是说，一条流的调度计划{(e₀，t₀)，(e₁，t₁)，...，(e_n，t_n)}被分成了多个动作，分解动作使得DRLS有良好的可扩展性，同时也解决了动态调度挑战，一个动作是一个有边ei和时隙tj组成的元组(e_i，t_j)；

步骤七：环境建模，当主体计算出动作A之后，环境部分就会计算出一个奖励值R，奖励值R用于更新DRLS的神经网络的参数theta，Hk用来表示一个TS流sk是否被成功的调度了，成功的调度意味着调度方法找到了一个从Xk到Yk的合法路由以及相应的时隙，同时这个调度计划的端到端时延是小于最大端到端时延Lk的，定义一个链路使用率Us，计算方法是所有边被占用的时隙数量除以所有边的总时隙数量，网络整体的链路使用率U_s和单独一条链路的使用率Uk定义如下：需要说明的是无论是整体链路使用率还是单独一条链路的使用率都是在不断变化的，这里定义的Us和Uk是在每一条流调度结束时计算的，链路使用率反应的是链路的拥挤程度，如果一条链路的使用率程度大于网络整体的使用率，那么这一条链路就有可能成为瓶颈链路，综合以上所有的因素，如果一个TS流的调度计划是{(e₀，t₀)，(e₁，t₁)，...，(e_n，t_n)}，那么对于产生这个调度计划的每一个动作，其奖励

可以定义为：只有当一条流调度结束的时候才能判断这条流是否调度成功了，所以，只有最后一个动作的奖励值能够按照等式11的方式来计算，而其他动作的奖励值是m经过衰减后的值，从直觉上来讲，越早的动作对于调度成功与否的影响越小；

步骤八：深度神经网络，使用所有的边作为输入，然后输出选择没一条边的可能性，每一个动作(e_i，t_j)中的边ei都是从DNN的输出中获取的，这个DNN有两个部分，分别是编码神经网络和策略神经网络，编码网络使用边信息W和全局信息M构建一个编码向量Vb，其中Ψ是编码网络，是用一个小的全连接网络实现的，Md是一个|E|*|E|的矩阵表示距离为d的可达性信息，策略网络X使用V^D_b作为输入并且输出选择每一条边的可能性Vp，在0～1范围之间，拥有最高可能性的边会被选中，结合选择某一个动作的奖励值R和DNN的参数theta，神经网络的损失函数定义如下：Loss_θ＝-logχ_θ×R (15)，下面的公式用来更新神经网络的参数θ，R表示的是更新的步长，而表示损失函数的梯度：

步骤九：实现，DNN的可靠性和稳定性很低，为了让DRLS称为一个可以信赖的调度方法，提出了控制门策略来筛除不合适的边，一共有三种边会被认为是不合适的：1)非邻边，如前所述，被选中的边必须是上一个动作选择的边的邻边，2)构成环路的边，环路会浪费网络资源并且导致时延增大，3)没有任何时隙可以调度当前TS流的边，DNN会输出选择一条边的概率，然后控制门会屏蔽掉所有不合适的边，最后，主体会在所有的合适的边里面选择一个概率最大的，如前所示，其实和控制门相关的信息已经传递给DNN了，然而，由于训练数据与测试数据的偏差，同时也会有训练数据质量的问题，神经网络有可能会忽略掉这些重要的信息，通过使用控制门技术，由于训练不足导致的错误会被避免，而神经网络的可导性和稳定性会得到提升；

步骤十：错误恢复，网络节点和链路都有可能会宕机，这会导致网络拓扑或者网络资源的变化，最终影响到正在网络中传输的TS流，一个链路故障会影响流经这条链路的所有TS流，而一个节点故障会导致所有以这个节点会源点或者终点边都发生故障并且影响所有流经这个节点的TS流，故障的链路或者节点不能在被同来承载TS流，并且所有受影响的流都要被重新调度，错误恢复通过以下四个步骤完成，首先是记录所有受影响的TS流的全部信息，也就是(X_k，Y_k，C_k，T_k，L_k)，在网络恢复之后，这些流都需要被重新调度，然后释放被这些受影响的流占用的网络资源，例如时隙，第三步是重新计算网络拓扑的全局信息M，因为这个时候网络拓扑已经发生变化了，第四步是使用重新计算的全局信息M调度这些受影响的流；

步骤十一：实验论证，在3种不同类型的网络拓扑上验证DRLS的性能，分别是用在空中客车A380飞机上的航空电子全双工交换式以太网网络拓扑，用在列车通讯中的梯形网络拓扑和随机生成的网络拓扑，如前所述，一条TS流由一个五元组确定(X_k，Y_k，C_k，T_k，L_k)，用于训练的流和用于测试的流都是不同的，但是都是随机生成的，Xk和Yk是在所有的网络节点中随机选的，Ck是一个介于64-1518之间的随机整数，为了简便，假定所有物理链路的传输速度都是1Gbit/s并且将1个毫秒划分为4个时隙，这样的话，即使是最大报文也可以在1个时隙内传输通过一个边，也就是说，任何帧都恰好占用一个时隙，TS流的周期Tk是在[16，32，64，128，256，512，1024，2048]范围内随机选取的，最大端到端时延Lk是一个介于64到256之间的随机整数，为三种拓扑，AFDX拓扑，梯形拓扑和随机拓扑分别训练了一个模型，每个模型都使用对应的网络拓扑和随机生成的TS流需求进行训练，测试时使用的网络拓扑与训练时相同，但是使用的TS流是不同的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110257321.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多目标时空关联网络关键节点的识别方法
下一篇：基于可达矩阵的电力信息物理系统鲁棒性分析方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的时间敏感网络通信流调度方法有效

专利文献下载