[发明专利]基于深度强化学习的多用户子载波功率分配方法有效

申请号：	202010579195.5	申请日：	2020-06-23
公开（公告）号：	CN111885720B	公开（公告）日：	2021-05-28
发明（设计）人：	古博;林梓淇;张旭;丁北辰;韩瑜	申请（专利权）人：	中山大学
主分类号：	H04W72/04	分类号：	H04W72/04;H04W72/08;H04W16/14;G06N3/04;G06N3/08
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	聂榕
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习多用户载波功率分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的多用户子载波功率分配方法，其特征在于，所述方法包括：

获取当前环境状态，当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；

基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理，获得当前功率分配方案，所述第一神经网络包括动作选择参数；所述当前功率分配方案包括：各可用子载波，以及各可用子载波对应的发射功率等级；

还包括步骤：

获取神经网络训练端发送的最优动作值评估参数，并采用所述最优动作值评估参数更新所述第一神经网络中的所述动作选择参数；其中，所述神经网络训练端获取预定数量的经验回放样本，所述经验回放样本包括对应的当前环境状态，所述当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；并采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，所述训练后的第二神经网络中包括最优动作值评估参数，所述第二神经网络与所述第一神经网络的结构相同。

2.根据权利要求1所述的方法，其特征在于，包括：

所述发射机本地状态包括：发射机前一时刻在各子载波上的先前传输功率，发射机前一时刻在各子载波上的先前频谱效益，发射机的直接增益，所述发射机对应的接收机收到的总干扰。

3.根据权利要求1所述的方法，其特征在于，包括：

所述基站状态包括：在当前时刻观测到的在至少两个历史回退时刻，所述发射机向对应的接收机传输时，对基站造成的干扰状态。

4.根据权利要求1所述的方法，其特征在于，包括：

状态包括：所述发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态，以及干扰邻居对应的频谱效益；以及至少一个历史回退时刻，所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态，以及干扰邻居的频谱效益。

5.根据权利要求1所述的方法，其特征在于，包括：

所述被干扰邻居状态包括：在当前时刻观测到的在至少两个历史回退时刻，发射机对邻居用户的干扰状态，以及对应的被干扰邻居的频谱效益。

6.根据权利要求2至5任意一项所述的方法，其特征在于，所述发射机的直接增益包括：所述发射机在当前时刻的发射机当前增益，以及所述发射机在至少一个历史回退时刻的发射机先前增益。

7.根据权利要求1所述的方法，其特征在于，还包括步骤：

观测执行所述当前功率分配方案之后的动作执行后状态；

基于所述动作执行后状态，计算执行所述当前功率分配方案之后的动作执行回报；