[发明专利]一种基于多智能体强化学习的分布式信道竞争方法在审

专利信息
申请号: 202210018613.2 申请日: 2022-01-08
公开(公告)号: CN114375066A 公开(公告)日: 2022-04-19
发明(设计)人: 邹逸飞;于东晓;徐标;徐明辉 申请(专利权)人: 山东大学
主分类号: H04W74/08 分类号: H04W74/08;G06N20/00
代理公司: 青岛华慧泽专利代理事务所(普通合伙) 37247 代理人: 付秀颖
地址: 250013 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 智能 强化 学习 分布式 信道 竞争 方法
【权利要求书】:

1.一种基于多智能体强化学习的分布式信道竞争方法,其特征在于,包括如下步骤:

步骤1:构建分布式信道竞争场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;

步骤2:构建方法所需多智能体强化学习模型;

步骤3:智能体与环境进行交互,令各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;

步骤4:将训练完成的模型用于分布式信道竞争。

2.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,分布式信道竞争场景为:

在一个网络系统中,K个网络接入点共享一个信道,这些网络接入点属于不同的网络结构,彼此之间不通信;将时间分为多个时间片,设定信道在某一时间片内只能被单个网络接入点使用,当某一时间片有多个网络接入点使用时则信道传输失败。

3.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的环境构建过程如下:

构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境,智能体可以获取到上一轮的信道状态,环境会依据智能体的动作,进行模拟,计算出信道状态以及给出各智能体相应的奖励值。

4.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的智能体构建过程如下:

构建信道竞争智能体K个,各个智能体通过与环境交互,以此构建经验回放集合,不断从中选取批次用于训练;每个智能体只能观测到公共的信道状态以及自身的状态,各智能体之间无法进行信息交互,在没有信息交流的情况下,共同实现较为公平的基于多智能体强化学习的分布式信道竞争。

5.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,

构建多智能体强化学习所需状态,分为两类,一类是所有智能体都能观测到的,称之为公共状态Spub,为信道状态以及之后训练所用到的噪声方差;另一类是私有状态Spri,各个智能体只能观测到各自的私有状态,无法得知其它智能体的私有状态,私有状态包含智能体的传输概率以及传输成功率。

6.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,

构建智能体调整各自概率动作A={α12,...αK},其中,K表示智能体的个数,每个αi表示智能体i对自身传输概率值的调整,αi值的区间为[-0.5,0.5],智能体i的传输概率在采取动作后会更新为pi’=pi*(1+ai)。

7.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,构建智能体奖励函数,奖励函数主要由两部分组成:

结果奖励:根据某一时间片内信道的状态,会给予各个智能体相应的奖励,对于智能体i,其在第t个时间片的结果奖励为:

其中Z是一个给定的值,Ni(t)表示智能体i在t个时间片内的总的使用信道成功次数,Nj(t)表示智能体j在t个时间片内的总的使用信道成功次数,当某一时间片没有智能体使用信道时,则信道状态为空闲;当有两个或两个以上智能体使用信道时,则信道状态为繁忙;

经验奖励:根据某一时间片内智能体的动作以及信道状态的改变,给予智能体引导性奖励,对于智能体i,其在第t个时间片的经验奖励为:

其中Ai(t)表示智能体i在t时间片做出的动作,即对自身传输概率值的调整,pi(t)表示智能体i在t时间片的概率,经验奖励的大小与概率值的改变相关。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210018613.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top