[发明专利]一种基于多智能体强化学习的分布式信道竞争方法在审

申请号：	202210018613.2	申请日：	2022-01-08
公开（公告）号：	CN114375066A	公开（公告）日：	2022-04-19
发明（设计）人：	邹逸飞;于东晓;徐标;徐明辉	申请（专利权）人：	山东大学
主分类号：	H04W74/08	分类号：	H04W74/08;G06N20/00
代理公司：	青岛华慧泽专利代理事务所(普通合伙) 37247	代理人：	付秀颖
地址：	250013 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能强化学习分布式信道竞争方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体强化学习的分布式信道竞争方法，其特征在于，包括如下步骤：

步骤1：构建分布式信道竞争场景，并且构建多智能体强化学习所需的基本元素，包括环境、智能体、状态、动作以及奖励函数；

步骤2：构建方法所需多智能体强化学习模型；

步骤3：智能体与环境进行交互，令各个智能体构建各自的经验回放集合，用以训练多智能体强化学习模型；

步骤4：将训练完成的模型用于分布式信道竞争。

2.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，分布式信道竞争场景为：

在一个网络系统中，K个网络接入点共享一个信道，这些网络接入点属于不同的网络结构，彼此之间不通信；将时间分为多个时间片，设定信道在某一时间片内只能被单个网络接入点使用，当某一时间片有多个网络接入点使用时则信道传输失败。

3.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，多智能体强化学习的环境构建过程如下：

构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境，智能体可以获取到上一轮的信道状态，环境会依据智能体的动作，进行模拟，计算出信道状态以及给出各智能体相应的奖励值。

4.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，多智能体强化学习的智能体构建过程如下：

构建信道竞争智能体K个，各个智能体通过与环境交互，以此构建经验回放集合，不断从中选取批次用于训练；每个智能体只能观测到公共的信道状态以及自身的状态，各智能体之间无法进行信息交互，在没有信息交流的情况下，共同实现较为公平的基于多智能体强化学习的分布式信道竞争。

5.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，

构建多智能体强化学习所需状态，分为两类，一类是所有智能体都能观测到的，称之为公共状态S^pub，为信道状态以及之后训练所用到的噪声方差；另一类是私有状态S^pri，各个智能体只能观测到各自的私有状态，无法得知其它智能体的私有状态，私有状态包含智能体的传输概率以及传输成功率。

6.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，

构建智能体调整各自概率动作A＝{α₁,α₂,...α_K}，其中，K表示智能体的个数，每个α_i表示智能体i对自身传输概率值的调整，α_i值的区间为[-0.5,0.5]，智能体i的传输概率在采取动作后会更新为p_i’＝p_i*(1+a_i)。

7.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，构建智能体奖励函数，奖励函数主要由两部分组成：

结果奖励：根据某一时间片内信道的状态，会给予各个智能体相应的奖励，对于智能体i，其在第t个时间片的结果奖励为：

其中Z是一个给定的值，N_i(t)表示智能体i在t个时间片内的总的使用信道成功次数，N_j(t)表示智能体j在t个时间片内的总的使用信道成功次数，当某一时间片没有智能体使用信道时，则信道状态为空闲；当有两个或两个以上智能体使用信道时，则信道状态为繁忙；

经验奖励：根据某一时间片内智能体的动作以及信道状态的改变，给予智能体引导性奖励，对于智能体i，其在第t个时间片的经验奖励为：

其中A_i(t)表示智能体i在t时间片做出的动作，即对自身传输概率值的调整，p_i(t)表示智能体i在t时间片的概率，经验奖励的大小与概率值的改变相关。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210018613.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载