[发明专利]一种基于深度强化学习的智能通信波束碰撞避免方法有效
申请号: | 202110503924.3 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113242068B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 黄永明;葛瑶;何伟梁;张铖;吴珩 | 申请(专利权)人: | 东南大学 |
主分类号: | H04B7/0456 | 分类号: | H04B7/0456;H04B7/0408;H04B7/06;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 通信 波束 碰撞 避免 方法 | ||
1.一种基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,包括以下步骤:
步骤1、构建多天线多小区下行通信系统模型,定义波束碰撞事件以及波束碰撞参数,建立关于基站簇工程参数的最小化平均总波束碰撞参数的原始优化问题;
步骤2、根据波束碰撞参数和波束域信道信息与信干噪比以及频谱效率的关系,将步骤1中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题;
步骤3、针对步骤2中所述的优化问题,在强化学习的框架下,将多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站簇工程参数的调优过程建模成马尔科夫决策过程,然后对其状态、动作以及奖励函数进行设计;
步骤4、基于步骤3所述强化学习框架,利用深度强化学习算法,在基站簇与无线通信环境的交互下,根据波束域统计信道信息进行基站簇工程参数的自适应调整,避免波束碰撞,提高平均频谱效率;
所述步骤1中基于多天线多小区下行通信系统模型建立最小化平均总波束碰撞参数的原始优化问题包括以下步骤:
步骤1.1、对于多天线多小区下行传输场景,M个基站均采用TDD模式,并配置具有V根天线的平面天线阵列,所有基站均支持波束成形,每个基站覆盖一个小区;在覆盖区域内,N个用户随机分布且均配置单根全向天线,每个用户仅与一个基站进行关联,所有小区和用户采用相同的时频资源;
步骤1.2、基站集为用户集为每个基站的服务用户集为并且基站服务用户集之间不存在相同用户;
步骤1.3、第n个用户关联到第m个基站上,该用户的接收信号yn可表达成下式:
其中,yn和zn分别表示第n个用户的接收信号和噪声,zn满足均值为0,方差为σ2的复高斯分布,σ2为噪声功率;sj,sk分别表示第j个和第k个用户的发射信号,均满足均值为0,方差为1的复高斯分布,pn,pk,pj分别为第n个、第k个和第j个用户的下行传输功率,wm,n为第m个基站和第n个用户之间的信道矢量的转置和预编码矢量,wm,n由hm,n确定,且满足wm,n=g(hm,n),g为预编码函数;表示去除第m个基站的基站集;表示去除第n个用户的第m个基站用户集;
步骤1.4、建模成函数h(x,θ),其中h表示基站与用户间的信道矢量,x表示用户位置,θ表示基站工程参数;
其中,x=[x,y,z]T为用户相对于基站的位置坐标,θ=[Γ,Υ]T为基站工程参数,Γ,Υ分别是基站的方位角和下倾角;L为散射路径数目,αl为第l条路径的复增益,其中复增益包含幅度和相位,ψl为第l条路径的方向;αl和ψl均受用户位置x和基站工程参数θ的影响;a为天线阵列导引矢量,Λ为天线单元空间响应;
步骤1.5、第n个用户与第m个基站关联,同时第j个用户与第i个基站关联,定义第n个用户接收到第j个用户干扰信号的强度与其有用信号的比值是波束碰撞参数βn,j;当波束碰撞参数βn,j大于预设阈值ε时,波束碰撞事件发生:
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分别表示第n个用户和第j个用户的下行传输功率,hi,n和hm,n分别为第i个基站和第n个用户之间的信道矢量和第m个基站和第n个用户之间的信道矢量,wi,j和wm,n分别为第i个基站和第j个用户之间的预编码矢量和第m个基站以及第n个用户之间的预编码矢量;H表示转置变换,ε为预设的波束碰撞参数的阈值;
步骤1.6、通过优化基站簇工程参数Θ以避免波束碰撞;波束碰撞参数βn,j会受到用户位置分布X和基站簇工程参数Θ的影响,定义平均总波束碰撞参数计算公式如下:
其中,X=[x1,x2,...,xN]T,Θ=[θ1,θ2,...,θM]T,E{βn,j|X,Θ}表示给定用户位置分布X和基站簇工程参数Θ条件下的波束碰撞参数βn,j的平均值;
步骤1.7、建立关于基站簇工程参数Θ的最小化平均总碰撞参数的优化问题,具体如下:
其中,表示基于基站簇工程参数的最小化平均总碰撞参数的优化问题,s.t.Θ表示基站簇工程参数的约束条件,为基站簇工程参数Θ的可行范围;
所述步骤2中所述的原始优化问题近似转变成依据波束域统计信道信息最大化平均频谱效率的优化问题包括以下步骤:
步骤2.1基于步骤1中所述的多天线多小区下行通信系统模型,当第n个用户关联到第m个基站时,其信干噪比的计算公式如下:
其中,pk为第k个用户的下行传输功率;
步骤2.2、定义波束碰撞事件以及波束碰撞参数,当前用户信干噪比γn的倒数可近似表达成下式:
步骤2.3、根据香农容量定理,推导出波束碰撞参数βn,j与当前用户频谱效率Rn之间的关系,表达式如下:
波束碰撞参数和频谱效率之间存在负相关关系,即当波束碰撞程度增加时,系统中波束干扰增强,频谱效率降低,网络性能下降;
步骤2.4、信干噪比和频谱效率根据基站与用户间的波束域信道信息进行计算,使基站在下行数据传输开始之前进行波束扫描以感知用户信道,
具体计算方式如下:
其中,D为波束扫描码本,DH为码本的转置变换,满足Di为D的第i行,即表示波束码本中的第i个波束,1≤i≤S,S为码书维度;波束域信道信息为基站与用户间的信道矢量h在不同波束上的投影值,可表达成根据上式可知,信干噪比可由波束域信道信息确定;根据香农公式可知,频谱效率由波束域信道信息确定;
步骤2.5、定义平均频谱效率具体表达式如下:
其中,表示给定用户位置分布X和基站簇工程参数Θ下的频谱效率Rn的平均值;
平均频谱效率R和波束域统计信息H之间的映射关系:
其中,f表示平均频谱效率与波束域统计信道信息H之间的映射;H(X,Θ)是指给定用户位置分布X和基站簇工程参数Θ下的波束域统计信道信息,H=[h1,1,h1,2,...,hM,N],hm,n表示第m个基站与第n个用户之间的波束域统计信道信息,M与N分别是基站的总数目和用户的总数目;表示基于用户位置分布X和基站簇工程参数Θ下的波束域信道信息的变换的平均值,E{·}表示期望,1≤s≤S;
步骤2.6、结合波束碰撞参数与频谱效率的负相关关系以及平均频谱效率和波束域统计信息之间的映射关系,将步骤一中建立的最小化平均总波束碰撞参数的原始优化问题转变成基于波束域统计信道信息H最大化平均频谱效率的优化问题,具体如下:
其中,表示基于基站簇工程参数Θ的平均频谱效率的最大化问题,f(H)指的是波束域统计信道信息H的映射函数,s.t.Θ表示基站簇工程参数Θ的约束条件;通过统计一段时间内系统速率的平均值得到,H通过统计波束域参考信号的接收强度得到;
所述步骤4所述的基于深度强化学习的基站簇工程参数优化算法的实现过程包括如下步骤:
步骤4.1初始化深度强化学习网络权重及其算法超参数,将算法作用于智能体,使其与步骤一所述的无线通信环境进行若干轮次的交互;
步骤4.2、在每个交互轮次开始时,初始化基站簇工程参数Θ=Θ0,并且在每个交互轮次中设计时间步;
步骤4.3、在每个时间步更迭时,智能体采集波束域统计信道信息H并输入深度强化学习网络,然后根据深度强化学习网络的输出调整基站簇工程参数Θ;
步骤4.4当无线通信环境再次达到稳定时,智能体对环境中新的波束域信道信息H'以及网络性能指标进行测量,并将基站簇工程参数Θ调整前的状态s=ξ(H)、基站簇工程参数Θ调整后的状态s'=ξ(H')、动作a=ζ(Θ)以及奖励函数缓存到一个经验数据库Ω中;与此同时,深度强化学习网络从经验数据库Ω中随机抽取批量数据进行神经网络的训练;
步骤4.5、重复以上交互过程,直到深度强化学习算法收敛以及网络性能指标达到稳定;记录此时的基站簇最优工程参数配置Θ*以及最优的网络性能指标
2.根据权利要求1所述的基于深度强化学习的智能通信波束碰撞避免方法,其特征在于,步骤3中建立的马尔科夫决策过程模型如下:
在强化学习框架下,将步骤1中所述的多天线多小区下行通信系统当作环境,基站簇当作智能体,并将基站工程簇参数的调优过程建模成马尔科夫决策过程模型;
其中根据步骤3中所述的优化问题设计的状态、动作以及奖励函数具体如下:
状态:定义所有用户的服务小区和相应邻区对应的全部波束域统计信道信息H和其变换形式ξ(H)作为马尔科夫决策过程模型的状态s,s=ξ(H),ξ表示变换;
动作:定义基站簇工程参数Θ或其变换形式ζ(Θ)为马尔科夫决策过程模型的动作a,a=ζ(Θ),ζ表示变换;
奖励:定义平均频谱效率和相关性能指标作为马尔科夫决策过程模型的奖励r,表示变换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503924.3/1.html,转载请声明来源钻瓜专利网。