[发明专利]一种基于深度强化学习的无线电传输方法及装置在审
申请号: | 202310027753.0 | 申请日: | 2023-01-09 |
公开(公告)号: | CN116229693A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 姜克建;冯福锋;侯海风;张丽英;张明祥;王俊;徐浩东;林瑞全;刘佳鑫 | 申请(专利权)人: | 广东省电信规划设计院有限公司;福州大学 |
主分类号: | G08C17/02 | 分类号: | G08C17/02;H04W74/00;H04W16/22;H04W28/06;H04W28/08;H04W72/53;H04W72/044;H04W28/02 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 江银会 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无线电 传输 方法 装置 | ||
本发明公开了一种基于深度强化学习的无线电传输方法及装置,该方法包括:对建立的信道选择与功率分配的联合优化模型中的神经网络参数进行优化训练,通过贪婪策略选择智能体的动作,通过对存储到记忆池的状态转移进行损失函数的计算,以及通过反向传播算法和软更新方式得到最优网络参数,进而通过最优网络参数对信道选择与功率分配的联合优化模型进行优化迭代,然后通过联合优化模型进行信道和功率的选择。可见,实施本发明能够为每个用户做出最优的信道接入和功率分配策略,不仅保证了用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的无线电传输方法及装置。
背景技术
在实际生活中,人们对频谱资源的需求日益增加,运用认知无线电技术将用户接入空闲频谱可以提高频谱利用率,资源分配是认知无线电的关键技术之一,其通过分配最佳信道和优化传输功率来提高系统的整体性能。
目前,市面上大多基于最优控制或者博弈论来解决资源分配问题,也有通过强化学习中的无模型策略来解决资源分配问题。但是,利用最优控制或博弈论解决资源分配问题的前提条件是无线网络中的用户均知道所有信道的状态信息,这在实际应用过程中是难以实现的,通过强化学习中的无模型策略来解决资源分配问题也会遇到收敛缓慢的问题,存在随机噪声和测量误差,因此,提出一种基于深度强化学习的无线电传输方法,以提高无线电传输系统的整体性能显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种基于深度强化学习的无线电传输方法及装置,能够有利于为每个用户做出最优的信道接入和功率分配策略,不仅保证了次用户传输的公平性,更提高了传输系统的整体稳定性和传输速率。
为了解决上述技术问题,本发明第一方面公开了一种基于深度强化学习的无线电传输方法,所述方法包括:
建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;
针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;
根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;
将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;
更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;
从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;
将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;
通过所述目标联合优化模型进行信道和功率的选择。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
根据软更新方式,更新所述当次神经网络参数,得到当次最优网络参数;
将所述当次最优网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并执行所述的继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省电信规划设计院有限公司;福州大学,未经广东省电信规划设计院有限公司;福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310027753.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝腕臂生产方法
- 下一篇:一种氮化硼高导热垫片及其制备方法