[发明专利]一种基于深度强化学习的无线电传输方法及装置在审
申请号: | 202310027753.0 | 申请日: | 2023-01-09 |
公开(公告)号: | CN116229693A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 姜克建;冯福锋;侯海风;张丽英;张明祥;王俊;徐浩东;林瑞全;刘佳鑫 | 申请(专利权)人: | 广东省电信规划设计院有限公司;福州大学 |
主分类号: | G08C17/02 | 分类号: | G08C17/02;H04W74/00;H04W16/22;H04W28/06;H04W28/08;H04W72/53;H04W72/044;H04W28/02 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 江银会 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无线电 传输 方法 装置 | ||
1.一种基于深度强化学习的无线电传输方法,其特征在于,所述方法包括:
建立信道选择与功率分配的联合优化模型,并初始化所述联合优化模型的回合训练次数、记忆池、深度神经网络以及所述深度神经网络的参数集合,所述参数集合包括所述深度神经网络的初始网络参数;
针对当次回合训练所述联合优化模型,初始化所述信道选择对应的第一智能体的状态;
根据贪婪策略确定所述第一智能体的动作,根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据所述贪婪策略确定所述第二智能体的动作;
将所述第一智能体的动作和所述第二智能体的动作输入到所述深度神经网络中进行分析,并获取所述深度神经网络返回的回报内容;
更新所述智能体的状态,并根据所述智能体的状态、所述智能体的动作、所述回报内容以及所述智能体更新后的状态生成状态转移,将所述状态转移存储到所述记忆池中;
从所述记忆池中随机采样预设数量的数据集合,并根据所述数据集合计算损失函数,根据所述损失函数和反向传播算法更新所述深度神经网络的初始网络参数,得到当次神经网络参数;
将所述当次神经网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型;
通过所述目标联合优化模型进行信道和功率的选择。
2.根据权利要求1所述的基于深度强化学习的无线电传输方法,其特征在于,所述方法还包括:
根据软更新方式,更新所述当次神经网络参数,得到当次最优网络参数;
将所述当次最优网络参数确定为下一次训练所述联合优化模型时所述深度神经网络的初始网络参数,并执行所述的继续对所述联合优化模型执行训练操作,直至所述联合优化模型的训练次数达到所述回合训练次数,并确定最后一次训练得到的所述联合优化模型为目标联合优化模型的操作。
3.根据权利要求1或2所述的基于深度强化学习的无线电传输方法,其特征在于,所述信道选择对应的第一智能体的状态的初始化公式为:
其中,表示第t个时隙所述信道选择对应的第一智能体初始化后的状态,Wt表示第t个时隙的信道占用情况,表示第t个时隙次用户到认知基站的信道增益,表示第t个时隙所述次用户到主基站的信道增益,表示第t个隙时主用户到所述认知基站的信道增益,当t=0时,代表第一次对所述信道选择对应的第一智能体的状态进行初始化,每个时隙开始时都对所述信道选择对应的第一智能体的状态进行初始化且每个时隙初始化后的所述第一智能体的状态用于当次所述联合优化模型的训练。
4.根据权利要求1-3任一项所述的基于深度强化学习的无线电传输方法,其特征在于,所述参数集合还包括贪婪策略的阈值;
所述根据贪婪策略确定所述第一智能体的动作,包括:
将所述第一智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第一返回值;
随机生成第一概率,当所述第一概率小于或等于所述贪婪策略的阈值时,随机选择所述第一智能体的动作,当所述第一概率大于所述贪婪策略的阈值时时,根据第一动作选择公式,选择所述第一智能体的动作;
所述根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态,并根据贪婪策略确定所述第二智能体的动作,包括:
根据所述第一智能体的动作和所述第一智能体的状态确定所述功率分配对应的第二智能体的状态;
将所述第二智能体的状态输入到所述深度神经网络中,得到所述深度神经网络的第二返回值;
随机生成第二概率,当所述第二概率小于或等于所述贪婪策略的阈值时,随机选择所述第二智能体的动作,当所述第二概率大于所述贪婪策略的阈值时时,根据第二动作选择公式,选择所述第二智能体的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省电信规划设计院有限公司;福州大学,未经广东省电信规划设计院有限公司;福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310027753.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝腕臂生产方法
- 下一篇:一种氮化硼高导热垫片及其制备方法