[发明专利]一种基于迁移A-C学习的服务功能链部署方法有效

专利信息
申请号: 201910805041.0 申请日: 2019-08-28
公开(公告)号: CN110505099B 公开(公告)日: 2021-11-19
发明(设计)人: 唐伦;贺小雨;王晓;陈前斌 申请(专利权)人: 重庆邮电大学
主分类号: H04L12/24 分类号: H04L12/24;H04L29/08
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 迁移 学习 服务 功能 部署 方法
【权利要求书】:

1.一种基于迁移行动者-评论家A-C学习的服务功能链部署方法,其特征在于:该方法包括以下步骤:

S1:建立基于虚拟网络功能(Virtual Network Function,VNF)放置、计算资源、物理链路带宽资源和前传网络带宽资源联合分配的系统端到端时延最小化服务功能链(ServiceFunction Chain,SFC)部署的网络模型;

S2:将已建立的时延最小化模型转化为具有连续状态和动作空间的离散时间马尔科夫决策过程(Markov Decision Process,MDP);

S3:针对该MDP中状态、动作空间连续,且转移概率未知,采用A-C学习与环境进行不断交互动态调整SFC部署策略,优化系统端到端时延;

S4:针对同一系统在不同时段SFC的部署任务不尽相同,为实现并加速该A-C学习方法在相似目标任务中的收敛过程,采用迁移A-C学习实现利用源任务中学习到的SFC部署知识快速寻找目标任务的部署策略;

所述SFC部署的网络模型为:

虚拟网络拓扑基于集中式单元/分布式单元(Centralized Unit/Distributed Unit,CU/DU)的两级云无线接入网(Cloud-Radio Access Network,C-RAN)架构,用带权无向图G={N,L}表示,其中,设备节点集N由DU池节集ND与CU池节点集NC组成,物理链路集L由DU池链路集LD、CU池链路集LC和前传网络LNGFI构成;

设备节点nu的计算资源容量为链路lv的带宽资源容量为系统中的切片集合为K,Mk代表切片k中的SFC集合;由于一个切片中包含有多条相同服务类型的SFC,切片k的第m条SFC定义为SFCm,其在时隙t的队列长度为qk,m(t),并满足其中qmax代表最大队列长度;

在步骤S1中,SFC部署的过程分为两个阶段:第1阶段每个切片选择VNF放置方式,即确定VNF在DU、CU池的分布情况;第2阶段根据每个切片的放置方式分别为DU池、CU池的各个VNF进行资源分配,包括每个VNF映射到物理节点后的计算资源分配,虚拟链路映射到物理链路后的带宽资源分配,以及SFC处于DU末端VNF的前传网络带宽资源分配,处于CU末端的VNF不考虑分配带宽资源;

将VNF放置、各类资源分配与系统中的各类时延建立关联性,具体包括:设备处理时延τ1(t)与计算资源分配密切相关;链路传输时延τ2(t)由池内物理链路传输时延和前传网络传输时延构成,与物理链路带宽资源和前传网络带宽资源分配密切相关;SFC在DU侧的排队时延τ3(t)由队列长度和数据包到达率决定;传输切片数据包的总平均端到端时延为:则优化目标为:min{τ};

在步骤S2中,将所述时延最小化模型转化为具有连续状态和动作空间的马尔科夫决策过程(Markov Decision Process,MDP)具体包括:

MDP定义为一个多元组其中是状态空间,是动作空间,是转移概率,是奖励函数;状态空间由系统内全部SFC的队列长度及其数据包到达率共同决定,动作空间是SFC的部署过程,包括VNF放置方式的选择和资源分配,转移概率为在一个状态采取某个部署动作后转移到下一个状态的概率:其中,为时隙t的系统状态,为时隙t的部署动作,f为状态转移概率密度函数;状态奖励函数为采取某个动作部署SFC后的系统端到端时延:Rt=-(τ1(t)+τ2(t)+τ3(t));此外,由于队列长度、数据包到达率以及资源分配都是连续动态变化的,MDP具有连续的状态空间和动作空间;

在步骤S3中,采用A-C学习与环境进行不断交互动态调整SFC部署策略,将其与所述MDP结合,将SFC部署目标转化为:寻找一个策略π,最大化目标函数:其中,Qπ(s,a)=E{Rt+βQπ(s(t+1),a(t+1))};动作a(t)来自于一个随机策略π(a|s)=Pr(a(t)=a|s(t)=s),它代表了从状态到采取动作概率的映射,即对于当前的队列长度和数据包到达率,选择某种VNF放置方式和资源分配方案的概率;

在步骤S4中,一个A-C学习任务最终的策略πθ(s,a)=Pr(a|s,θ),代表在状态s下选择动作a的概率,但是这样的一个学习策略是适应当前环境和部署任务的,考虑将该部署策略的参数知识迁移到其他相似目标学习任务上,采用一种新的策略更新方法,整体策略分为本地策略和外来策略其中,本地策略为当前学习任务中根据环境状态生成的随机策略,外来策略为其他相似任务中生成的随机策略,为迁移率,为迁移率因子,即有当t→∞,ζ(t)→0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910805041.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top