[发明专利]一种无线网络中基于多智能体强化学习的领导人选举方法在审

专利信息
申请号: 202210018612.8 申请日: 2022-01-08
公开(公告)号: CN114375022A 公开(公告)日: 2022-04-19
发明(设计)人: 邹逸飞;于东晓;徐标;徐明辉 申请(专利权)人: 山东大学
主分类号: H04W40/24 分类号: H04W40/24;H04W40/32;H04L41/14;G06N20/00
代理公司: 青岛华慧泽专利代理事务所(普通合伙) 37247 代理人: 付秀颖
地址: 250013 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 无线网络 基于 智能 强化 学习 领导人 选举 方法
【权利要求书】:

1.一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,包括如下步骤:

S1.构建无线网络领导人选举场景,用于与智能体交互;

构建领导人选举所需多智能体强化学习模型;

S2.对模型进行训练使模型参数最优化;

S3.各智能体加载训练好的模型参数,根据模型做出决策,实现领导人选举。

2.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,领导人选举场景为:

在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败。

3.根据权利要求1所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,多智能体强化学习模型为:

在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与领导人选举的候补节点;

每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;

所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比;

所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比;

所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;

所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值。

4.根据权利要求3所述的一种无线网络中基于多智能体强化学习的领导人选举方法,其特征在于,当前策略网络和当前评论网络的输入为t时间片的状态,通过如下步骤获得:

在每个时间片内的初始阶段,各智能体会调整各自的选举概率,根据此概率选择在此时间片之后的阶段内是否参与领导人选举,即是否占用无线信道,根据此时间片内的信道使用情况,环境会给各智能体反馈选举结果;

对于t时间片当前策略网络和当前评论网络,t-1时间片的选举结果会作为它们输入的一部分;

各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合,作为各智能体t时间片的状态张量;

组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210018612.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top