[发明专利]基于强化学习的多径TCP传输调度方法有效
申请号: | 201910077608.7 | 申请日: | 2019-01-26 |
公开(公告)号: | CN109547505B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张栋;何斌杰;周政演;朱丹红 | 申请(专利权)人: | 福州大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06N20/00;H04L12/709 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 tcp 传输 调度 方法 | ||
1.一种基于强化学习的多径TCP传输调度方法,其特征在于,包括构建强化学习模型阶段、训练强化学习模型阶段、部署强化学习模型阶段;构建强化学习模型阶段,需要根据强化学习基础模型和多径TCP传输调度环境的需求确定四要素:智能体、环境状态、行动、奖励;训练强化学习模型阶段,将强化学习模型部署至多径TCP运行环境中,具体即将强化学习模型部署在通信的发送端主机的多径TCP层上,使用强化学习训练算法对强化学习模型进行训练;部署强化学习模型阶段,按照训练强化学习模型阶段的部署的方案进行部署;该方法具体包括如下步骤:
步骤S1、确定在多径TCP传输调度环境下强化学习模型的目标;
步骤S2、确定强化学习模型中智能体的组成部分;
步骤S3、确定强化学习模型中的环境状态、行动、奖励,以及相关计算反馈公式;
步骤S4、将强化学习模型部署至通信的发送端主机的多径TCP层上,使用强化学习训练算法进行训练;
步骤S5、根据实际拓扑,将训练完成的强化学习模型部署至多径TCP的发送终端实际运行;
步骤S2中,所述强化学习模型中智能体的组成部分,包括:1)状态感知器I,用于从环境W收集当前环境状态信息s;其中,环境W,即多径TCP传输终端;s由SACK包和RTT时延信息构成,因此,即环境状态信息s可由(SACK,RTT)的二维数组表示,为了便于矩阵表示,把SACK包返回的目标TCP子流和连续SACK包数量作为组合量化,由编号1开始,具体编号数量q由组合的类别数决定,RTT以1ms的精度表示,并向下取整,RTT编号数量p由RTT的类别数决定;2)学习器L,其为三维矩阵M,x维、y维分别表示SACK和RTT组成状态分量,z维表示可能的行动被选中概率,即可能的N值被选中的概率,z维度行动的数值即为N值,N为大于0的正整数,其数量k由训练网络中实际适用的N值类别数决定,因此矩阵M是一个q*p*k的矩阵;3)动作选择器P,其根据当前环境状态信息s,查询矩阵M,选择出对应的行动;
所述步骤S3的具体实现方式如下:
对于环境W,每当接受一个行动,就会产生一个新的环境状态信息s',并返回一个奖励r,r决定了如何对智能体的学习器L中的三维矩阵M中的行动概率进行调整,即对N值被选中概率进行调整,使得N值的选择在每一种状态下逐渐趋向合理;r的奖励函数由公式(1)定义:
式中,Mb代表在当前环境状态信息下以往最佳的数据包乱序度,Mp代表当前行动ap所产生的数据包乱序度,以10%作为调整比例;因此,当Mp大于Mb时,奖励r是负数,相当于惩罚机制;当Mp小于Mb,奖励r是正数,相当于奖励机制;
r作用于学习器L的方式由公式(2)表示:
式中,V[x,y,z]表示一状态下对应的一动作的选中概率值,SACKp,RTTp,ap表示当前的状态和行动,aother表示除当前行动外的行动,一共有n个;当学习器L得到r值,首先学习器L会对当前的动作的选中概率作出程度为r的调整,然后对其余状态都作出程度为的调整。
2.根据权利要求1所述的基于强化学习的多径TCP传输调度方法,其特征在于,步骤S1中,多径TCP传输由多条多径TCP子流组成,在传输调度中传输调度策略需要根据传输情况识别需要预留的数据包传输量N,因此,强化学习模型的目标就是使得N值尽量合理,合理性的评价标准为多径TCP传输的吞吐量和包乱序度。
3.根据权利要求1所述的基于强化学习的多径TCP传输调度方法,其特征在于,所述SACK包是当接收终端发生乱序接收时,返回给发送终端的响应包,通过观察SACK包返回的目标TCP子流和连续返回的SACK包数量可以判断传输乱序情况和预留数据包传输量N值是偏大还是偏小;RTT反映了各TCP子流的链路质量情况。
4.根据权利要求1所述的基于强化学习的多径TCP传输调度方法,其特征在于,步骤S4中,强化学习模型的部署,是在NS-3网络实验平台上对强化学习模型进行部署,包括多径TCP协议代码,将强化学习模型部署在发送终端主机的多径TCP协议层进行训练,强化学习训练算法则根据公式(1)、公式(2)进行设定;训练的收敛原则为强化学习模型为多径TCP传输做出的调度使得多径TCP传输的吞吐率和包乱序度稳定在根据需求而预先设定的数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910077608.7/1.html,转载请声明来源钻瓜专利网。