[发明专利]一种无线网络中基于多智能体强化学习的领导人选举方法在审
申请号: | 202210018612.8 | 申请日: | 2022-01-08 |
公开(公告)号: | CN114375022A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 邹逸飞;于东晓;徐标;徐明辉 | 申请(专利权)人: | 山东大学 |
主分类号: | H04W40/24 | 分类号: | H04W40/24;H04W40/32;H04L41/14;G06N20/00 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 付秀颖 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无线网络 基于 智能 强化 学习 领导人 选举 方法 | ||
1.一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,包括如下步骤:
S1.构建无线网络领导人选举场景,用于与智能体交互;
构建领导人选举所需多智能体强化学习模型;
S2.对模型进行训练使模型参数最优化;
S3.各智能体加载训练好的模型参数,根据模型做出决策,实现领导人选举。
2.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,领导人选举场景为:
在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败。
3.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,多智能体强化学习模型为:
在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与领导人选举的候补节点;
每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;
所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比;
所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比;
所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;
所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值。
4.根据权利要求3所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,当前策略网络和当前评论网络的输入为t时间片的状态,通过如下步骤获得:
在每个时间片内的初始阶段,各智能体会调整各自的选举概率,根据此概率选择在此时间片之后的阶段内是否参与领导人选举,即是否占用无线信道,根据此时间片内的信道使用情况,环境会给各智能体反馈选举结果;
对于t时间片当前策略网络和当前评论网络,t-1时间片的选举结果会作为它们输入的一部分;
各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合,作为各智能体t时间片的状态张量;
组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210018612.8/1.html,转载请声明来源钻瓜专利网。