[发明专利]一种多域网络环境中基于强化学习的服务功能链部署方法有效
申请号: | 202010325982.7 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111510381B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 孙罡;黄冠华;孙健;虞红芳 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/715 | 分类号: | H04L12/715;H04L12/751;H04L12/725;G06K9/62;G06N3/08;G06F17/16 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 环境 基于 强化 学习 服务 功能 部署 方法 | ||
1.一种多域网络环境中基于强化学习的服务功能链部署方法,其特征在于,包括以下步骤:
S1、根据网络中的服务器所处的网络环境及服务器所需解决的现实问题,将网络设定为具有子域隐私保护能力的多域网络,按服务器节点所在域进行网络分层,得到包括1个顶层网络和N个子域网络的两层网络,N为正整数;
步骤S1包括以下分步骤:
S11、根据网络中的服务器所处的网络环境及服务器所需解决的现实问题,将网络设定为具有子域隐私保护能力的多域网络;
S12、将多域网络中的服务器节点组成的网络拓扑G依域分为N个子域网络拓扑,得到N个子域网络,记子域网络拓扑为其中n为子域编号,其值在闭区间[1,N]中;
S13、将每个子域抽象成顶层网络节点,将每个子域中具有域间通信能力的服务器形成的通信链路抽象成顶层网络节点间通路,构成顶层网络拓扑Gtop,得到顶层网络;
S2、通过域间Q强化学习训练算法训练得到顶层网络四维记忆矩阵Qtop;
步骤S2包括以下分步骤:
S21、初始化顶层网络四维记忆矩阵Qtop,设定其四个下标分别为now_h、now_node、action_node和end_node,所有元素均设为0;
S22、初始化顶层网络四维奖励矩阵Rtop,设定其四个下标分别为now_h、now_node、action_node和end_node,将下标为now_node和end_node的元素值设为1000,其余下标的元素值设为0;
S23、选取顶层网络拓扑Gtop中的任一个服务器节点作为节点v;
S24、判断节点v是否曾被选取,若是,则跳转至步骤S23,若否则跳转至步骤S25;
S25、初始化链路chain为空列表;
S26、在链路chain的尾部添入节点v;
S27、根据顶层网络四维奖励矩阵Rtop、顶层网络拓扑Gtop和添入节点v的链路chain,通过递归算法,训练顶层网络四维记忆矩阵Qtop;
步骤S27包括以下分步骤:
A1、设置一个临时列表chain_tmp,并拷贝链路chain的当前数据至临时列表chain_tmp;
A2、设置一个节点标识v0,标记链路chain当前的最后一个元素;
A3、判断v0节点在顶层网络拓扑Gtop是否存在未被选取作为节点v2的邻接节点,若是,则跳转至步骤A4,若否,则结束;
A4、在顶层网络拓扑Gtop中寻取v0节点的任一未被选取作为节点v2的邻接节点作为节点v2;
A5、判断临时列表chain_tmp中是否存有节点v2,若是,则跳转至步骤A3,若否,则跳转至步骤A6;
A6、将节点v2存入到临时列表chain_tmp的尾部;
A7、将临时列表chain_tmp的元素倒序,根据顶层网络四维奖励矩阵Rtop通过下式更新顶层网络四维记忆矩阵Qtop:
Qtop(s,a)=0.8(r+maxa′Qtop(s′,a′)) (1)
其中,s为状态集合,a为动作集合,s′为未来状态集合,a′为未来动作集合,s、a、s′和a′由临时列表chain_tmp倒序后的元素而定,r为顶层网络四维奖励矩阵Rtop中的元素;
A8、判断v0节点是否还存在未被选取作为节点v2的邻接节点,若是,则跳转至步骤A3,若否则跳转至步骤A9;
A9、更新节点标识v0,令其标记临时列表chain_tmp当前的最后一个元素,并跳转至步骤A3;
S28、判断顶层网络拓扑Gtop中的节点是否都已被选取作为节点v,若是,则结束,此时的顶层网络四维记忆矩阵Qtop训练完成,若否,则跳转至步骤S23;
S3、通过域间Q强化学习决策算法从顶层网络四维记忆矩阵Qtop中抽取顶层网络备选路径集PAtop;
步骤S3包括以下分步骤:
S31、初始化顶层网络备选路径集PAtop;
S32、读取用户请求列表RE,并判断用户请求列表RE中的用户请求是否都已处理,若是,则结束,若否,则跳转至步骤S33;
S33、在用户请求列表RE中未处理的用户请求中任选一个用户请求作为用户请求re;
S34、根据用户请求re指示的起止节点,从顶层网络四维记忆矩阵Qtop中获取备选路径,存入顶层网络备选路径集PAtop;
S35、判断顶层网络备选路径集PAtop是否为空集,若是,则跳转至步骤S32,若否,则标记用户请求re指向的用户请求列表RE中的用户请求为已处理的用户请求,并跳转至步骤S32;
S4、通过域内Q强化学习训练算法训练得到各个子域网络的五维记忆矩阵
步骤S4中每一个子域网络的域内Q强化学习训练算法均包括以下分步骤:
B1、初始化该子域网络的五维记忆矩阵设定其五个下标分别为now_h、now_node、action_node、end_node和h,所有元素均为0;
B2、初始化该子域网络的五维奖励矩阵设定其五个下标分别为now_h、now_node、action_node、end_node和h,将下标为now_node和end_node的元素值设为1000,其余下标的元素值设为0;
B3、设置迭代阈值imax,并初始化迭代参数i为0;
B4、选取该子域网络拓扑中的具有跨域功能的服务器节点作为节点v;
B5、判断节点v是否曾被选取,若是,则跳转至B4,若否则跳转至步骤B6;
B6、初始化链路chain为空列表;
B7、在链路chain的尾部添入节点v;
B8、根据该子域网络的五维奖励矩阵该子域网络拓扑迭代阈值imax、迭代参数i和添入节点v的链路chain,通过递归算法,训练该子域网络的五维记忆矩阵
步骤B8包括以下分步骤:
C1、设置一个临时列表chain_tmp,并拷贝链路chain的当前数据至临时列表chain_tmp;
C2、设置一个节点标识v0,标记链路chain当前的最后一个元素,并将迭代参数i的值加1;
C3、判断迭代参数i的值是否小于迭代阈值imax,若是则跳转至步骤C4,若否则结束;
C4、判断v0节点在该子域网络拓扑中是否存在未被选取作为节点v2的邻接节点,若是,则跳转至步骤C5,若否,则结束;
C5、在该子域网络拓扑中寻取v0节点的任一未被选取作为节点v2的邻接节点作为节点v2;
C6、判断临时列表chain_tmp中是否存有节点v2,若是,则跳转至步骤C4,若否,则跳转至步骤C7;
C7、将节点v2存入到临时列表chain_tmp的尾部;
C8、将临时列表chain_tmp的元素倒序,根据各子域网络五维奖励矩阵通过下式更新矩阵
其中,s为状态集合,a为动作集合,s′为未来状态集合,a′为未来动作集合,s、a、s′和a′由临时列表chain_tmp的当前顺序的元素而定,r′为该子域网络的五维奖励矩阵中的元素;
C9、将临时列表chain_tmp的元素正序,根据各子域网络五维奖励矩阵通过式(2)更新矩阵
C10、判断v0节点是否还存在未被选取作为节点v2的邻接节点,若是,则跳转至步骤C4,若否则跳转至步骤C11;
C11、更新节点标识v0,令其标记临时列表chain_tmp当前的最后一个元素,将迭代参数i的值加1,并跳转至步骤C3;
B9、判断该子域网络拓扑中的具有跨域功能的服务器节点是否都已被选取作为节点v,若是,则结束,此时的矩阵训练完成,若否,则跳转至步骤B4;
S5、根据顶层网络备选路径集PAtop,通过域内Q强化学习决策算法从各个子域网络的五维记忆矩阵中抽取各个子域网络的备选路径集其中n为子域编号,其值在闭区间[1,N]中;
步骤S5包括以下分步骤:
S51、初始化该子域网络域内备选路径集
S52、读取用户请求列表RE和顶层网络备选路径集PAtop;
S53、针对顶层网络备选路径集PAtop中的每一条路径pa,获取其经过的所有子域网络拓扑
S54、针对用户请求列表RE中的所有用户请求re,根据顶层网络备选路径集PAtop中的每一条路径pa与子域网络拓扑的关系获得各个子域网络的备选路径集
S55、通过下式对中的每一条路径进行初步筛选,并在中剔除不满足该式条件的路径:
其中,j为路径编号,表示子域n的第j路径,表示子域n的最大带宽,为路径的带宽,BSFC为服务功能链SFC整体带宽;
S56、通过下述两式计算中每条路径的上报模糊值并将中的路径按增序排序:
其中,为路径所需能量,Energybase为新开机服务器节点基础耗能,numnew_power_on为该路径内新开机服务器节点数,Energyvnf为服务器虚拟网络功能VNF耗能,numnode_power_on为该路径服务器节点总数量;
S57、记录中每条路径的可部署需求资源最多的虚拟网络功能VNF的节点数量
S6、根据顶层网络备选路径集PAtop和各个子域网络的备选路径集形成具体路径,通过网络节能评分算法,采用栈式结构对具体路径进行决策,得到最优节能路径,实现服务功能链部署;
步骤S6包括以下分步骤:
S61、根据顶层网络备选路径集PAtop和各个子域网络的备选路径集通过栈式结构形成具体路径,构成整条服务功能链SFC;
S62、采用服务功能链SFC的评分值score指标评价服务功能链的节能情况,通过调节各个子域的使用量,在服务功能链SFC中可部署需求资源最多的虚拟网络功能VNF的节点数量满足用户需求的情况下,使得SFC的评分值score最低,评分值score的计算表达式如式(6)所示:
其中,为子域网络拓扑的使用权重值,子域网络拓扑使用量越大,权重值越大;评分值score越低能耗越小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010325982.7/1.html,转载请声明来源钻瓜专利网。