[发明专利]一种多域网络环境中基于强化学习的服务功能链部署方法有效

申请号：	202010325982.7	申请日：	2020-04-23
公开（公告）号：	CN111510381B	公开（公告）日：	2021-02-26
发明（设计）人：	孙罡;黄冠华;孙健;虞红芳	申请（专利权）人：	电子科技大学
主分类号：	H04L12/715	分类号：	H04L12/715;H04L12/751;H04L12/725;G06K9/62;G06N3/08;G06F17/16
代理公司：	成都正华专利代理事务所(普通合伙) 51229	代理人：	陈选中
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络环境基于强化学习服务功能部署方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多域网络环境中基于强化学习的服务功能链部署方法，其特征在于，包括以下步骤：

S1、根据网络中的服务器所处的网络环境及服务器所需解决的现实问题，将网络设定为具有子域隐私保护能力的多域网络，按服务器节点所在域进行网络分层，得到包括1个顶层网络和N个子域网络的两层网络，N为正整数；

步骤S1包括以下分步骤：

S11、根据网络中的服务器所处的网络环境及服务器所需解决的现实问题，将网络设定为具有子域隐私保护能力的多域网络；

S12、将多域网络中的服务器节点组成的网络拓扑G依域分为N个子域网络拓扑，得到N个子域网络，记子域网络拓扑为其中n为子域编号，其值在闭区间[1,N]中；

S13、将每个子域抽象成顶层网络节点，将每个子域中具有域间通信能力的服务器形成的通信链路抽象成顶层网络节点间通路，构成顶层网络拓扑G^top，得到顶层网络；

S2、通过域间Q强化学习训练算法训练得到顶层网络四维记忆矩阵Q^top；

步骤S2包括以下分步骤：

S21、初始化顶层网络四维记忆矩阵Q^top，设定其四个下标分别为now_h、now_node、action_node和end_node，所有元素均设为0；

S22、初始化顶层网络四维奖励矩阵R^top，设定其四个下标分别为now_h、now_node、action_node和end_node，将下标为now_node和end_node的元素值设为1000，其余下标的元素值设为0；

S23、选取顶层网络拓扑G^top中的任一个服务器节点作为节点v；

S24、判断节点v是否曾被选取，若是，则跳转至步骤S23，若否则跳转至步骤S25；

S25、初始化链路chain为空列表；

S26、在链路chain的尾部添入节点v；

S27、根据顶层网络四维奖励矩阵R^top、顶层网络拓扑G^top和添入节点v的链路chain，通过递归算法，训练顶层网络四维记忆矩阵Q^top；

步骤S27包括以下分步骤：

A1、设置一个临时列表chain_tmp，并拷贝链路chain的当前数据至临时列表chain_tmp；

A2、设置一个节点标识v₀，标记链路chain当前的最后一个元素；

A3、判断v₀节点在顶层网络拓扑G^top是否存在未被选取作为节点v₂的邻接节点，若是，则跳转至步骤A4，若否，则结束；

A4、在顶层网络拓扑G^top中寻取v₀节点的任一未被选取作为节点v₂的邻接节点作为节点v₂；

A5、判断临时列表chain_tmp中是否存有节点v₂，若是，则跳转至步骤A3，若否，则跳转至步骤A6；

A6、将节点v₂存入到临时列表chain_tmp的尾部；

A7、将临时列表chain_tmp的元素倒序，根据顶层网络四维奖励矩阵R^top通过下式更新顶层网络四维记忆矩阵Q^top：

Q^top(s,a)＝0.8(r+max_a′Q^top(s′,a′)) (1)

其中，s为状态集合，a为动作集合，s′为未来状态集合，a′为未来动作集合，s、a、s′和a′由临时列表chain_tmp倒序后的元素而定，r为顶层网络四维奖励矩阵R^top中的元素；

A8、判断v₀节点是否还存在未被选取作为节点v₂的邻接节点，若是，则跳转至步骤A3，若否则跳转至步骤A9；

A9、更新节点标识v₀，令其标记临时列表chain_tmp当前的最后一个元素，并跳转至步骤A3；

S28、判断顶层网络拓扑G^top中的节点是否都已被选取作为节点v，若是，则结束，此时的顶层网络四维记忆矩阵Q^top训练完成，若否，则跳转至步骤S23；

S3、通过域间Q强化学习决策算法从顶层网络四维记忆矩阵Q^top中抽取顶层网络备选路径集PA^top；

步骤S3包括以下分步骤：

S31、初始化顶层网络备选路径集PA^top；

S32、读取用户请求列表RE，并判断用户请求列表RE中的用户请求是否都已处理，若是，则结束，若否，则跳转至步骤S33；

S33、在用户请求列表RE中未处理的用户请求中任选一个用户请求作为用户请求re；

S34、根据用户请求re指示的起止节点，从顶层网络四维记忆矩阵Q^top中获取备选路径，存入顶层网络备选路径集PA^top；

S35、判断顶层网络备选路径集PA^top是否为空集，若是，则跳转至步骤S32，若否，则标记用户请求re指向的用户请求列表RE中的用户请求为已处理的用户请求，并跳转至步骤S32；

S4、通过域内Q强化学习训练算法训练得到各个子域网络的五维记忆矩阵

步骤S4中每一个子域网络的域内Q强化学习训练算法均包括以下分步骤：

B1、初始化该子域网络的五维记忆矩阵设定其五个下标分别为now_h、now_node、action_node、end_node和h，所有元素均为0；

B2、初始化该子域网络的五维奖励矩阵设定其五个下标分别为now_h、now_node、action_node、end_node和h，将下标为now_node和end_node的元素值设为1000，其余下标的元素值设为0；

B3、设置迭代阈值i_max，并初始化迭代参数i为0；

B4、选取该子域网络拓扑中的具有跨域功能的服务器节点作为节点v；

B5、判断节点v是否曾被选取，若是，则跳转至B4，若否则跳转至步骤B6；

B6、初始化链路chain为空列表；

B7、在链路chain的尾部添入节点v；

B8、根据该子域网络的五维奖励矩阵该子域网络拓扑迭代阈值i_max、迭代参数i和添入节点v的链路chain，通过递归算法，训练该子域网络的五维记忆矩阵

步骤B8包括以下分步骤：

C1、设置一个临时列表chain_tmp，并拷贝链路chain的当前数据至临时列表chain_tmp；

C2、设置一个节点标识v₀，标记链路chain当前的最后一个元素，并将迭代参数i的值加1；

C3、判断迭代参数i的值是否小于迭代阈值i_max，若是则跳转至步骤C4，若否则结束；

C4、判断v₀节点在该子域网络拓扑中是否存在未被选取作为节点v₂的邻接节点，若是，则跳转至步骤C5，若否，则结束；

C5、在该子域网络拓扑中寻取v₀节点的任一未被选取作为节点v₂的邻接节点作为节点v₂；

C6、判断临时列表chain_tmp中是否存有节点v₂，若是，则跳转至步骤C4，若否，则跳转至步骤C7；

C7、将节点v₂存入到临时列表chain_tmp的尾部；

C8、将临时列表chain_tmp的元素倒序，根据各子域网络五维奖励矩阵通过下式更新矩阵

其中，s为状态集合，a为动作集合，s′为未来状态集合，a′为未来动作集合，s、a、s′和a′由临时列表chain_tmp的当前顺序的元素而定，r′为该子域网络的五维奖励矩阵中的元素；

C9、将临时列表chain_tmp的元素正序，根据各子域网络五维奖励矩阵通过式(2)更新矩阵

C10、判断v₀节点是否还存在未被选取作为节点v₂的邻接节点，若是，则跳转至步骤C4，若否则跳转至步骤C11；

C11、更新节点标识v₀，令其标记临时列表chain_tmp当前的最后一个元素，将迭代参数i的值加1，并跳转至步骤C3；

B9、判断该子域网络拓扑中的具有跨域功能的服务器节点是否都已被选取作为节点v，若是，则结束，此时的矩阵训练完成，若否，则跳转至步骤B4；

S5、根据顶层网络备选路径集PA^top，通过域内Q强化学习决策算法从各个子域网络的五维记忆矩阵中抽取各个子域网络的备选路径集其中n为子域编号，其值在闭区间[1,N]中；

步骤S5包括以下分步骤：

S51、初始化该子域网络域内备选路径集

S52、读取用户请求列表RE和顶层网络备选路径集PA^top；

S53、针对顶层网络备选路径集PA^top中的每一条路径pa，获取其经过的所有子域网络拓扑

S54、针对用户请求列表RE中的所有用户请求re，根据顶层网络备选路径集PA^top中的每一条路径pa与子域网络拓扑的关系获得各个子域网络的备选路径集

S55、通过下式对中的每一条路径进行初步筛选，并在中剔除不满足该式条件的路径：

其中，j为路径编号，表示子域n的第j路径，表示子域n的最大带宽，为路径的带宽，B_SFC为服务功能链SFC整体带宽；

S56、通过下述两式计算中每条路径的上报模糊值并将中的路径按增序排序：

其中，为路径所需能量，Energy_base为新开机服务器节点基础耗能，num_{new_power_on}为该路径内新开机服务器节点数，Energy_vnf为服务器虚拟网络功能VNF耗能，num_{node_power_on}为该路径服务器节点总数量；

S57、记录中每条路径的可部署需求资源最多的虚拟网络功能VNF的节点数量

S6、根据顶层网络备选路径集PA^top和各个子域网络的备选路径集形成具体路径，通过网络节能评分算法，采用栈式结构对具体路径进行决策，得到最优节能路径，实现服务功能链部署；

步骤S6包括以下分步骤：

S61、根据顶层网络备选路径集PA^top和各个子域网络的备选路径集通过栈式结构形成具体路径，构成整条服务功能链SFC；

S62、采用服务功能链SFC的评分值score指标评价服务功能链的节能情况，通过调节各个子域的使用量，在服务功能链SFC中可部署需求资源最多的虚拟网络功能VNF的节点数量满足用户需求的情况下，使得SFC的评分值score最低，评分值score的计算表达式如式(6)所示：

其中，为子域网络拓扑的使用权重值，子域网络拓扑使用量越大，权重值越大；评分值score越低能耗越小。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010325982.7/1.html，转载请声明来源钻瓜专利网。

上一篇：优惠券管理方法、装置及存储介质
下一篇：一种基于ZYNQ平台的数据交互系统及方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多域网络环境中基于强化学习的服务功能链部署方法有效

专利文献下载