[发明专利]基于深度强化学习的多用户子载波功率分配方法有效
申请号: | 202010579195.5 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111885720B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 古博;林梓淇;张旭;丁北辰;韩瑜 | 申请(专利权)人: | 中山大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W72/08;H04W16/14;G06N3/04;G06N3/08 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 聂榕 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 多用户 载波 功率 分配 方法 | ||
1.一种基于深度强化学习的多用户子载波功率分配方法,其特征在于,所述方法包括:
获取当前环境状态,当前环境状态包括:发射机本地状态,基站状态,干扰邻居状态以及被干扰邻居状态;
基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理,获得当前功率分配方案,所述第一神经网络包括动作选择参数;所述当前功率分配方案包括:各可用子载波,以及各可用子载波对应的发射功率等级;
还包括步骤:
获取神经网络训练端发送的最优动作值评估参数,并采用所述最优动作值评估参数更新所述第一神经网络中的所述动作选择参数;其中,所述神经网络训练端获取预定数量的经验回放样本,所述经验回放样本包括对应的当前环境状态,所述当前环境状态包括:发射机本地状态,基站状态,干扰邻居状态以及被干扰邻居状态;并采用所述经验回放样本对用来评估动作的第二神经网络进行训练,获得训练后的第二神经网络,所述训练后的第二神经网络中包括最优动作值评估参数,所述第二神经网络与所述第一神经网络的结构相同。
2.根据权利要求1所述的方法,其特征在于,包括:
所述发射机本地状态包括:发射机前一时刻在各子载波上的先前传输功率,发射机前一时刻在各子载波上的先前频谱效益,发射机的直接增益,所述发射机对应的接收机收到的总干扰。
3.根据权利要求1所述的方法,其特征在于,包括:
所述基站状态包括:在当前时刻观测到的在至少两个历史回退时刻,所述发射机向对应的接收机传输时,对基站造成的干扰状态。
4.根据权利要求1所述的方法,其特征在于,包括:
状态包括:所述发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态,以及干扰邻居对应的频谱效益;以及至少一个历史回退时刻,所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态,以及干扰邻居的频谱效益。
5.根据权利要求1所述的方法,其特征在于,包括:
所述被干扰邻居状态包括:在当前时刻观测到的在至少两个历史回退时刻,发射机对邻居用户的干扰状态,以及对应的被干扰邻居的频谱效益。
6.根据权利要求2至5任意一项所述的方法,其特征在于,所述发射机的直接增益包括:所述发射机在当前时刻的发射机当前增益,以及所述发射机在至少一个历史回退时刻的发射机先前增益。
7.根据权利要求1所述的方法,其特征在于,还包括步骤:
观测执行所述当前功率分配方案之后的动作执行后状态;
基于所述动作执行后状态,计算执行所述当前功率分配方案之后的动作执行回报;
将所述当前环境状态、当前功率分配方案、动作执行后状态、动作执行后回报发送给神经网络训练端。
8.根据权利要求7所述的方法,其特征在于,基于所述动作执行后状态,计算执行所述当前功率分配方案之后的动作执行回报,包括:
获取所述发射机所在D2D对的频谱效用,由于所述发射机引起的干扰造成的总降低频谱效用,对基站造成的干扰所产生的惩罚;
基于所述频谱效用、所述总降低频谱效用、以及所述惩罚,确定所述动作执行回报。
9.一种基于深度强化学习的多用户子载波功率分配方法,其特征在于,包括步骤:
获取预定数量的经验回放样本,所述经验回放样本包括对应的当前环境状态,所述当前环境状态包括:发射机本地状态,基站状态,干扰邻居状态以及被干扰邻居状态;
采用所述经验回放样本对用来评估动作的第二神经网络进行训练,获得训练后的第二神经网络,所述训练后的第二神经网络中包括最优动作值评估参数;
在满足参数更新条件时,将所述最优动作值评估参数发送给发射机,以使得所述发射机采用所述最优动作值评估参数更新用来进行动作选择的第一神经网络,所述第一神经网络用于发射机进行当前功率分配方案的确定,所述第二神经网络与所述第一神经网络的结构相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010579195.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:帧内色度预测模式快速选择
- 下一篇:一种拉布裁布叠布系统