[发明专利]软件定义光网络中收发机的配置方法及装置有效
申请号: | 201910722503.2 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110519664B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张民;李进;王丹石;崔思恒;吕宏伟;徐易兰;李帅 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04Q11/00 | 分类号: | H04Q11/00;H04B10/40;H04L12/24 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈玉婷 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 软件 定义 网络 收发 配置 方法 装置 | ||
1.一种软件定义光网络中收发机的配置方法,其特征在于,包括:
将软件定义光网络的配置前网络状态输入至决策网络,获取所述决策网络的输出结果;
根据所述输出结果,从预设的配置动作集中确定目标配置动作,并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置;
其中,所述决策网络基于训练网络得到;
所述训练网络根据训练集训练得到,所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集;
所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态;
其中,将软件定义光网络的配置前网络状态输入至决策网络,之前还包括:
获取多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集;
将每个样本配置前网络状态及对应的样本配置动作和样本标签集作为一个训练样本;
得到多个训练样本,将所述多个训练样本作为训练集,通过所述训练集对训练网络进行训练;
每对所述训练网络训练预设次数,将所述训练网络的模型参数传递给所述决策网络;
通过所述训练集对所述训练网络进行训练,包括:
对于任意一个训练样本,将所述训练样本中的样本配置前网络状态输入至所述训练网络,得到所述训练网络输出的与预设的样本配置动作集中多个样本配置动作一一对应的多个期望即时奖励和多个期望配置后网络状态;
基于损失函数,根据所述多个期望即时奖励、所述多个期望配置后网络状态和所述样本标签集,获取所述训练网络的损失值;
基于误差反向传播算法更新所述训练网络的模型参数;
其中,所述样本即时奖励根据配置后的收发机的传输性能确定。
2.根据权利要求1所述的软件定义光网络中收发机的配置方法,其特征在于,将软件定义光网络的配置前网络状态输入至决策网络,获取所述决策网络的输出结果,包括:
将软件定义光网络的配置前网络状态输入至所述决策网络,获取所述决策网络输出的与所述配置动作集中多个配置动作一一对应的多个预测即时奖励和多个预测配置后网络状态;
将所述多个预测即时奖励和所述多个预测配置后网络状态作为所述输出结果。
3.根据权利要求2所述的软件定义光网络中收发机的配置方法,其特征在于,根据所述输出结果,从所述决策网络的配置动作集中确定目标配置动作,包括:
根据每个配置动作对应的预测即时奖励和预测配置后网络状态,计算每个配置动作对应的期望奖励;
得到与多个配置动作一一对应的多个期望奖励,并从所述多个期望奖励中,确定最大期望奖励;
将所述最大期望奖励对应的配置动作作为所述目标配置动作。
4.根据权利要求3所述的软件定义光网络中收发机的配置方法,其特征在于,根据所述目标配置动作对所述软件定义光网络中的收发机进行配置,之后还包括:
获取配置后网络的实际即时奖励和实际网络状态;
将所述配置前网络状态作为新的样本配置前网络状态,将所述目标配置动作作为新的样本配置动作,将所述实际即时奖励和所述实际网络状态组合作为新的样本标签集;
将所述新的样本配置前网络状态、所述新的样本配置动作和所述新的样本标签集作为训练样本,添加至所述训练集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722503.2/1.html,转载请声明来源钻瓜专利网。