[发明专利]一种基于迁移A-C学习的服务功能链部署方法有效

申请号：	201910805041.0	申请日：	2019-08-28
公开（公告）号：	CN110505099B	公开（公告）日：	2021-11-19
发明（设计）人：	唐伦;贺小雨;王晓;陈前斌	申请（专利权）人：	重庆邮电大学
主分类号：	H04L12/24	分类号：	H04L12/24;H04L29/08
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迁移学习服务功能部署方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于迁移行动者-评论家A-C学习的服务功能链部署方法，其特征在于：该方法包括以下步骤：

S1：建立基于虚拟网络功能(Virtual Network Function，VNF)放置、计算资源、物理链路带宽资源和前传网络带宽资源联合分配的系统端到端时延最小化服务功能链(ServiceFunction Chain，SFC)部署的网络模型；

S2：将已建立的时延最小化模型转化为具有连续状态和动作空间的离散时间马尔科夫决策过程(Markov Decision Process，MDP)；

S3：针对该MDP中状态、动作空间连续，且转移概率未知，采用A-C学习与环境进行不断交互动态调整SFC部署策略，优化系统端到端时延；

S4：针对同一系统在不同时段SFC的部署任务不尽相同，为实现并加速该A-C学习方法在相似目标任务中的收敛过程，采用迁移A-C学习实现利用源任务中学习到的SFC部署知识快速寻找目标任务的部署策略；

所述SFC部署的网络模型为：

虚拟网络拓扑基于集中式单元/分布式单元(Centralized Unit/Distributed Unit，CU/DU)的两级云无线接入网(Cloud-Radio Access Network，C-RAN)架构，用带权无向图G＝{N,L}表示，其中，设备节点集N由DU池节集N_D与CU池节点集N_C组成，物理链路集L由DU池链路集L_D、CU池链路集L_C和前传网络L_NGFI构成；

设备节点n_u的计算资源容量为链路l_v的带宽资源容量为系统中的切片集合为K，M_k代表切片k中的SFC集合；由于一个切片中包含有多条相同服务类型的SFC，切片k的第m条SFC定义为SFCm，其在时隙t的队列长度为q_k,m(t)，并满足其中q_max代表最大队列长度；

在步骤S1中，SFC部署的过程分为两个阶段：第1阶段每个切片选择VNF放置方式，即确定VNF在DU、CU池的分布情况；第2阶段根据每个切片的放置方式分别为DU池、CU池的各个VNF进行资源分配，包括每个VNF映射到物理节点后的计算资源分配，虚拟链路映射到物理链路后的带宽资源分配，以及SFC处于DU末端VNF的前传网络带宽资源分配，处于CU末端的VNF不考虑分配带宽资源；

将VNF放置、各类资源分配与系统中的各类时延建立关联性，具体包括：设备处理时延τ₁(t)与计算资源分配密切相关；链路传输时延τ₂(t)由池内物理链路传输时延和前传网络传输时延构成，与物理链路带宽资源和前传网络带宽资源分配密切相关；SFC在DU侧的排队时延τ₃(t)由队列长度和数据包到达率决定；传输切片数据包的总平均端到端时延为：则优化目标为：min{τ}；

在步骤S2中，将所述时延最小化模型转化为具有连续状态和动作空间的马尔科夫决策过程(Markov Decision Process,MDP)具体包括：

MDP定义为一个多元组其中是状态空间，是动作空间，是转移概率，是奖励函数；状态空间由系统内全部SFC的队列长度及其数据包到达率共同决定，动作空间是SFC的部署过程，包括VNF放置方式的选择和资源分配，转移概率为在一个状态采取某个部署动作后转移到下一个状态的概率：其中，为时隙t的系统状态，为时隙t的部署动作，f为状态转移概率密度函数；状态奖励函数为采取某个动作部署SFC后的系统端到端时延：R_t＝-(τ₁(t)+τ₂(t)+τ₃(t))；此外，由于队列长度、数据包到达率以及资源分配都是连续动态变化的，MDP具有连续的状态空间和动作空间；

在步骤S3中，采用A-C学习与环境进行不断交互动态调整SFC部署策略，将其与所述MDP结合，将SFC部署目标转化为：寻找一个策略π，最大化目标函数：其中，Q^π(s,a)＝E{R_t+βQ^π(s^(t+1),a^(t+1))}；动作a^(t)来自于一个随机策略π(a|s)＝Pr(a^(t)＝a|s^(t)＝s)，它代表了从状态到采取动作概率的映射，即对于当前的队列长度和数据包到达率，选择某种VNF放置方式和资源分配方案的概率；

在步骤S4中，一个A-C学习任务最终的策略π_θ(s,a)＝Pr(a|s,θ)，代表在状态s下选择动作a的概率，但是这样的一个学习策略是适应当前环境和部署任务的，考虑将该部署策略的参数知识迁移到其他相似目标学习任务上，采用一种新的策略更新方法，整体策略分为本地策略和外来策略其中，本地策略为当前学习任务中根据环境状态生成的随机策略，外来策略为其他相似任务中生成的随机策略，为迁移率，为迁移率因子，即有当t→∞，ζ(t)→0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910805041.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于异构模型重用的跨区域通信流量预测方法
下一篇：网络工单配置方法、装置、电子设备及计算机可读介质

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于迁移A-C学习的服务功能链部署方法有效

专利文献下载