[发明专利]一种基于流量识别的网络功能虚拟化智能调度方法有效
申请号: | 201910543654.1 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110324260B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 王晶;王敬宇;孙海峰;戚琦;何波;廖建新 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L12/24;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流量 识别 网络 功能 虚拟 智能 调度 方法 | ||
1.一种基于流量识别的网络功能虚拟化智能调度方法,基于置信区域策略优化算法Trust Region Policy Optimization算法实现,其特征在于:所述方法包括下列操作步骤:
(1)对网络数据流进行分类:根据网络数据流的到达时间、数量和长度构造网络数据流的识别特征,对网络数据流进行分类;所述识别特征不会受到网络数据流是否加密的限制;所述识别特征取决于网络用户行为的流量类型,不会受到同一类型不同应用的限制;
所述的识别特征具体包括如下特征:
前向包的到达时间间隔最大值,前向包的到达时间间隔最小值,前向包的到达时间间隔平均值,前向包的到达时间间隔标准差;
后向包的到达时间间隔最大值,后向包的到达时间间隔最小值,后向包的到达时间间隔平均值,后向包的到达时间间隔标准差;
双向包的到达时间间隔最大值,双向包的到达时间间隔最小值,双向包的到达时间间隔平均值,双向包的到达时间间隔标准差;
网络数据流持续时间;
前向包包长度最大值,前向包包长度最小值,前向包包长度平均值,前向包包长度标准差;
后向包包长度最大值,后向包包长度最小值,后向包包长度平均值,后向包包长度标准差;
双向包包长度最大值,双向包包长度最小值,双向包包长度平均值,双向包包长度标准差;
前向包平均每秒包数,前向包平均每秒字节数;
后向包平均每秒包数,后向包平均每秒字节数;
前向包和后向包平均每秒包数比值,前向包和后向包平均每秒字节数比值;
所述前向包是指从本地客户端传输向服务器端的网络流量数据包,所述后向包是指从服务器端传输向本地客户端的网络流量数据包,所述双向包是指本地客户端与服务器端之间传输的所有网络流量数据包;
(2)设置Trust Region Policy Optimization算法的状态空间:
对于数据包i,定义其在时间步ti到达时的网络状态为由此时网络中所有节点状态链路状态和传输状态共同组成;上式中,表示时间步ti时节点n的空闲计算资源,表示时间步ti时链路e的空闲带宽资源;MTTi表示数据包i的最大传输时间,该最大传输时间根据步骤(1)中对数据包i的分类结果来设定;TPi表示数据包i的传输优先级,该传输优先级根据步骤(1)中对数据包i的分类结果来设定;
(3)设置Trust Region Policy Optimization算法的动作空间:
系统扫描整个网络,获得所有从源节点到目的节点的所有可达路径,假设存在P条路径,则动作空间为:A={a|a∈{1,2,…,P},上式中a表示系统所采取的动作,即对应具体编号的路径;
(4)设置Trust Region Policy Optimization算法的奖励函数:
由于受到网络服务质量的限制,当数据包在网络中传输时间超过其最大传输时间时,则该数据包被丢弃,故以最小化数据包的平均延时和丢弃包的数量为目的,设置t时间步的奖励函数rt为:
上式中It表示t时间步在网络中传输的流量数据包的集合,Nt表示t时间步丢弃的数据包的数量,b和c分别表示基准值和惩罚系数;
(5)设置Trust Region Policy Optimization算法的损失函数:
上式中,Et[]表示对t时间步方括号内的部分求数学期望;
θ表示生成该算法中决策策略的神经网络所有参数集合,表示新策略πθ(at|st)与旧策略之间相同的状态-动作对被选中的概率比值,clip()函数表示数值截断函数,clip()函数括号内第二项和第三项的数值分别为第一项数值的上界和下界,rt(θ)在上下界之间则函数值输出rt(θ)的原始值,若超出上下界则对rt(θ)进行截断,输出上界值或下界值;
表示新策略πθ(at|st)与旧策略之间点概率分布的距离平方值,rt(θ)与Dpp均为衡量新旧策略之间差值的指标,ε为截取系数,λ为惩罚系数,为优势函数,表示在t时间步选择特定动作的收益与所有动作平均收益的差:
其中第一项表示根据策略π在状态s下采取动作a带来的期望奖励值,为累积奖励值;γ为折扣系数,在0和1之间取值,用以平衡最新奖励值与历史奖励值的影响;rt+k表示第t+k时间步的奖励值;V(s)表示在状态s下所有动作奖励的平均值;
(6)在前述步骤的基础上,利用置信区域策略优化算法实现对虚拟网络功能的智能调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910543654.1/1.html,转载请声明来源钻瓜专利网。