[发明专利]一种基于多智能体强化学习的分布式信道竞争方法在审
申请号: | 202210018613.2 | 申请日: | 2022-01-08 |
公开(公告)号: | CN114375066A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 邹逸飞;于东晓;徐标;徐明辉 | 申请(专利权)人: | 山东大学 |
主分类号: | H04W74/08 | 分类号: | H04W74/08;G06N20/00 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 付秀颖 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 分布式 信道 竞争 方法 | ||
1.一种基于多智能体强化学习的分布式信道竞争方法,其特征在于,包括如下步骤:
步骤1:构建分布式信道竞争场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;
步骤2:构建方法所需多智能体强化学习模型;
步骤3:智能体与环境进行交互,令各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;
步骤4:将训练完成的模型用于分布式信道竞争。
2.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,分布式信道竞争场景为:
在一个网络系统中,K个网络接入点共享一个信道,这些网络接入点属于不同的网络结构,彼此之间不通信;将时间分为多个时间片,设定信道在某一时间片内只能被单个网络接入点使用,当某一时间片有多个网络接入点使用时则信道传输失败。
3.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的环境构建过程如下:
构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境,智能体可以获取到上一轮的信道状态,环境会依据智能体的动作,进行模拟,计算出信道状态以及给出各智能体相应的奖励值。
4.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的智能体构建过程如下:
构建信道竞争智能体K个,各个智能体通过与环境交互,以此构建经验回放集合,不断从中选取批次用于训练;每个智能体只能观测到公共的信道状态以及自身的状态,各智能体之间无法进行信息交互,在没有信息交流的情况下,共同实现较为公平的基于多智能体强化学习的分布式信道竞争。
5.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,
构建多智能体强化学习所需状态,分为两类,一类是所有智能体都能观测到的,称之为公共状态Spub,为信道状态以及之后训练所用到的噪声方差;另一类是私有状态Spri,各个智能体只能观测到各自的私有状态,无法得知其它智能体的私有状态,私有状态包含智能体的传输概率以及传输成功率。
6.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,
构建智能体调整各自概率动作A={α1,α2,...αK},其中,K表示智能体的个数,每个αi表示智能体i对自身传输概率值的调整,αi值的区间为[-0.5,0.5],智能体i的传输概率在采取动作后会更新为pi’=pi*(1+ai)。
7.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,构建智能体奖励函数,奖励函数主要由两部分组成:
结果奖励:根据某一时间片内信道的状态,会给予各个智能体相应的奖励,对于智能体i,其在第t个时间片的结果奖励为:
其中Z是一个给定的值,Ni(t)表示智能体i在t个时间片内的总的使用信道成功次数,Nj(t)表示智能体j在t个时间片内的总的使用信道成功次数,当某一时间片没有智能体使用信道时,则信道状态为空闲;当有两个或两个以上智能体使用信道时,则信道状态为繁忙;
经验奖励:根据某一时间片内智能体的动作以及信道状态的改变,给予智能体引导性奖励,对于智能体i,其在第t个时间片的经验奖励为:
其中Ai(t)表示智能体i在t时间片做出的动作,即对自身传输概率值的调整,pi(t)表示智能体i在t时间片的概率,经验奖励的大小与概率值的改变相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210018613.2/1.html,转载请声明来源钻瓜专利网。