[发明专利]一种无线网络中基于多智能体强化学习的领导人选举方法在审

申请号：	202210018612.8	申请日：	2022-01-08
公开（公告）号：	CN114375022A	公开（公告）日：	2022-04-19
发明（设计）人：	邹逸飞;于东晓;徐标;徐明辉	申请（专利权）人：	山东大学
主分类号：	H04W40/24	分类号：	H04W40/24;H04W40/32;H04L41/14;G06N20/00
代理公司：	青岛华慧泽专利代理事务所(普通合伙) 37247	代理人：	付秀颖
地址：	250013 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种无线网络基于智能强化学习领导人选举方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无线网络中基于多智能体强化学习的领导人选举方法，其特征在于，包括如下步骤：

S1.构建无线网络领导人选举场景，用于与智能体交互；

构建领导人选举所需多智能体强化学习模型；

S2.对模型进行训练使模型参数最优化；

S3.各智能体加载训练好的模型参数，根据模型做出决策，实现领导人选举。

2.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法，其特征在于，领导人选举场景为：

在无线网络环境中，存在K个领导人候补节点和一个无线信道，时间被分为多个时间片，各候补节点间彼此无法通信，且信道在某一时间片内只能被单个节点占用；在每个时间片内，各候补节点会对自身的选举概率进行调整，根据调整后的选举概率选择是否参与选举，参与选举的节点会去抢占信道，依据每个时间片内信道的状态，环境会给予各节点反馈，当参与选举的节点数量为1时，即信道被成功占用时，则为选举成功；当没有参与选举的节点或参与选举的节点数量不等于1时，即信道未被成功占用时，此时选举失败。

3.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法，其特征在于，多智能体强化学习模型为：

在各个智能体处都构建DDPG强化学习模型，每个智能体都被看作是参与领导人选举的候补节点；

每个智能体的DDPG模型包括四个全连接网络，分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络；

所述当前策略网络，输入为t时间片的状态，输出为t时间片的动作，及对t时间片的选举概率的增长百分比；

所述目标策略网络，输入为t+1时间片的状态，输出为t+1时间片的动作，及对t+1时间片的选举概率的增长百分比；

所述当前评论网络，输入为t时间片的状态和当前策略网络的输出，输出为对t时间片此状态下采取此动作的价值的评估值；

所述目标评论网络，输入为t+1时间片的状态和当前策略网络的输出，输出为对t+1时间片此状态下采取此动作的价值的评估值。

4.根据权利要求3所述的一种无线网络中基于多智能体强化学习的领导人选举方法，其特征在于，当前策略网络和当前评论网络的输入为t时间片的状态，通过如下步骤获得：

在每个时间片内的初始阶段，各智能体会调整各自的选举概率，根据此概率选择在此时间片之后的阶段内是否参与领导人选举，即是否占用无线信道，根据此时间片内的信道使用情况，环境会给各智能体反馈选举结果；

对于t时间片当前策略网络和当前评论网络，t-1时间片的选举结果会作为它们输入的一部分；

各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合，作为各智能体t时间片的状态张量；

组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。