[发明专利]一种基于强化学习的波束训练方法有效
申请号: | 202110548704.2 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113285740B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 杨绿溪;张天怡;徐佩钦;周京鹏;俞菲;徐琴珍 | 申请(专利权)人: | 东南大学 |
主分类号: | H04B7/0426 | 分类号: | H04B7/0426;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 波束 训练 方法 | ||
1.一种基于强化学习的波束训练方法,其特征在于,包括以下步骤:
步骤1、在初始时隙内,基站搜索整个码本找到波束作为发送波束;
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数;
所述步骤2还包括以下步骤:初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤2.1,构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,初始化Q值估计网络的参数θ;
步骤2.2,构建强化学习目标Q值网络,结构与Q值估计网络相同,初始化目标Q值网络的参数θ′=θ;
状态信息输入Q值估计网络后,依次通过第一个全连接层、整流线性单元激活层、第二个全连接层、整流线性单元激活层、第三个全连接层、整流线性单元激活层和最后一个全连接层,最终输出动作价值估计结果;
所述步骤1还包括以下步骤:
步骤1.1、通过对波束空间的均匀采样来构建码本:
其中,fi表示每一个波束,M为码本的大小;a(·)代表天线阵列响应向量;
a(·)的形式为:
其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;
步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束;
所述步骤4还包括以下步骤:
步骤4.1、在时隙t内执行动作at;at是一个二元组,at=(ai,bi);在时隙t内用于波束训练的波束集合为:
其中,fc为上一时隙内的最佳波束;
步骤4.2,在时隙t内利用波束集合中的波束进行波束训练,测量每一个波束对应的接收信号强度,并估计出等效信道向量
其中,hH为信道向量,f1,...,fM代表码本中M个波束;将中的每个元素取模得到向量It,其中:It(i)和表示向量It和的第i个元素,将连续三个时隙内的It进行拼接得到状态st+1=[It-2,It-1,It];
步骤4.3,计算动作at的奖励值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi为时隙t内用于波束训练的波束个数,T0为传输一个波束需要的时间,TS为一个时隙的总时长,P为基站的发射功率,fk为时隙t内的最佳波束;
所述步骤6还包括:
步骤6.1、在经验池D中抽取交互数据,计算损失函数为:
其中,Q(st,at)代表输入状态信息st时,Q值估计网络输出的动作at的价值估计值,代表输入状态信息st+1时,目标Q值网络输出的最大的动作价值估计值,γ为衰减因子,rt为动作at的奖励值,利用梯度下降法更新Q值估计网络的参数θ;
步骤6.2、延迟更新目标Q值网络的参数θ′=θ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110548704.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于家电铰链件焊接的转盘式自动焊接装置
- 下一篇:一种自适应式投影装置