[发明专利]一种面向超密集组网的动态资源分配方法有效
申请号: | 202110762110.1 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113490219B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 黄川;崔曙光;王丹 | 申请(专利权)人: | 香港中文大学(深圳) |
主分类号: | H04W16/10 | 分类号: | H04W16/10;H04W72/04;H04W72/08;H04B7/0456;H04B7/0426 |
代理公司: | 成都巾帼知识产权代理有限公司 51260 | 代理人: | 邢伟 |
地址: | 518100 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 密集 组网 动态 资源 分配 方法 | ||
1.一种面向超密集组网的动态资源分配方法,其特征在于:包括以下步骤:
S1.构建包含N个小区的超密集组网模型,每一个小区配备一个基站;
S2.对N个小区进行分簇,部署在同一个簇中的基站相互协作,被看作一个具有多个天线的虚拟基站实体,将部分小区间干扰问题转化为簇内干扰;
S3.确定上行传输方案、下行传输方案和收益函数;
步骤S3中所述的上行传输方案包括:
设第n个小区选择分簇小区内的上行用户发送功率为的信号到具有个接收天线的实体虚拟基站;将每个簇内的上行传输建模为一个多用户单输入多输出信道,则第k个簇内的虚拟基站群接收信号为:
其中,表示上行用户n到所在簇中虚拟基站的信道参数,和表示自干扰信道以及来自的上下行簇间干扰信道,和分别表示同簇下行干扰信号以及来自的上下行干扰信号,表示加性高斯白噪声向量且每个成员满足基站群接收信号中,第二项为实体基站上的自干扰,经自干扰消除后残余自干扰被建模成均值为0方差为ζ2的加性高斯白噪声;
采用最小均方误差串行干扰消除解码器对上述接收信号进行解码,得到内上行可达速率为:
其中,表示秩为Nk的单位矩阵,簇间干扰矩阵表示为:
其中,为内下行第n个用户的预编码矩阵;
步骤S3中所述的下行传输方案包括:
下行传输中,虚拟基站通过预编码器对每一个发送给下行用户的信号进行预编码;中下行传输可被建模为多输入单输出信道,第k个簇内的第n个下行用户的接收信号为:
其中,表示基站到下行用户n的信道参数,和表示簇内的上行干扰信道以及来自的上下行簇间干扰信道,和分别表示同簇上行干扰信号以及来自的上下行干扰信号,表示加性高斯白噪声;基于上述接收信号,簇内下行的可达和速率可表示为
其中,簇间干扰表示为
步骤S3中确定收益函数的过程包括:
对于具有Nk个基站的簇串行干扰消除译码复杂度随基站数量呈指数增加,即用来描述集簇复杂度;簇群的瞬时收益和集簇成本定义为:
其中,qk为给定的单位成本价格,基于上述分析,小区n加入第k个集簇的收益函数被定义为:
其中表示贡献相对比例,v{n}表示单簇{n}的收益;
S4.构建基于系统吞吐量的优化问题;
S5.基于邻传播算法被用来确定集簇中心节点;
S6.基于分布式强化学习进行动态网络资源分配;
所述步骤S6包括:
S601.将每个时隙分成两个阶段,每个智能体分别进行簇中心的选择定义每个智能体的行动和状态空间,以及每个阶段的收益函数如下:
在时隙t,每个智能体在第一阶段首先选择分簇中心,即
其中,等价于在第二阶段,进行传输参数的选择,此阶段的行动空间定义为
其中和分别是第n个智能体上下行发送功率,表示智能体n下行发送节点对用户m的发送参数;当第一阶段结束后,分簇结构固定,当前Nk个智能体组成簇时,智能体n,n∈{1,…,Nk},在第二阶段的行动空间被简化为
同样地,定义第一阶段的状态,即
其中,hn(t)表示与智能体n有关的信道,包括上下行信道以及干扰信道,是一个依赖于上一时隙簇内成员的向量;如果智能体n和m在上一时隙组成了簇则中相应第n和m个元素的值为1,其余值为0;当第一阶段的分簇完成以后,每个智能体都能观测到当前时刻所在簇内的成员;因此,第二阶段的状态更新为
随后,定义两个阶段的收益函数为
S602.构建多智能体深度强化学习架构,解决分簇与传输参数分布式执行行为的问题:
在时隙t,智能体n首先在DQN网络的帮助下,选择集簇中心作为状态的一个函数;然后,由于同簇智能体能够观测到彼此,向量生成,状态更新为每个智能体根据局部状态依据DDPG架构中的actor网络选择行为当行为执行结束后,分别得到两个阶段的收益和环境跳转到下一状态和
当每个智能体在当前时刻得到行为后,组网中的各个小区分布式地选择各自的簇中心以及执行上下行发送参数,实现上下行信号的传输;在每一个时刻,各个小区以的方式分布式执行簇选择,并以为传输参数进行信号传输,以此实现了整个超密集组网在长时间尺度上的动态资源的分配;
S603.当动作执行完成后,两个阶段的经历和分别被存进具有固定长度为M的记忆缓存器和中;若记忆缓存器被装满,旧的记忆条会被新的记忆条覆盖掉;训练器随机从记忆缓存器中抽取D个记忆训练网络;
DQN网络主要通过最小化以下损失函数进行训练,即
其中是对应的target Q函数,其参数θ'将根据θ的值被周期性更新,即
θ′←(1-τ)θ+τθ′,
其中τ是一个固定的更新参数;然后每一个智能体都配备一个target Q网络的复制版本,采用ε-greedy方法并根据的值选择行为;在DQN中,缓存器里的每一条记忆包含所有智能体在某个时刻的经历,即
对于第二个阶段的训练,每个智能体具有一个DDPG架构,由一个Actor和一个Critic网络组成;Actor网络用来根据当前的局部观测,分布式地采取行为,Critic则用来评价Actor输出行为的好坏并指导Actor网络输出更加有效的策略;因此,Critic和Actor的训练也在集中控制器上进行;其中,Actor网络主要通过最小化以下梯度函数进行训练,即
其中为Critic网络的输出,用来评价当前Actor选择的行为,并为之找到更好的梯度下降方向,μn表示智能体n在第二个阶段的输出策略;Critic的训练主要通过最大化以下损失函数,即
其中,是所有target网络在参数θ′n下的输出策略;同样地,参数θ′n根据θn的值被周期性更新,即
θ′n←(1-τ)θn+τθ′n.
缓存器里的每条记忆也同样包含所有智能体在某个时刻的经历,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学(深圳),未经香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762110.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:甚低频人工源信号的时延提取方法
- 下一篇:流量限制方法及设备