[发明专利]基于稀疏注意力机制的多智能体强化学习方法及系统在审

专利信息
申请号: 202110253904.5 申请日: 2021-03-09
公开(公告)号: CN112949856A 公开(公告)日: 2021-06-11
发明(设计)人: 金博;李文浩;王祥丰;张致恺 申请(专利权)人: 华东师范大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04
代理公司: 上海德禾翰通律师事务所 31319 代理人: 夏思秋
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 稀疏 注意力 机制 智能 强化 学习方法 系统
【权利要求书】:

1.一种基于稀疏注意力机制的多智能体强化学习方法,其特征在于,所述方法包括以下步骤:

步骤一:初始化每个智能体的策略网络参数、中心化Q1值网络参数以及中心化Q2值网络参数,初始化经验回放缓存;

步骤二:重置多智能体环境,每个智能体得到初始观察oi

步骤三:每一个智能体根据当前策略以及当前观察,执行策略输出的动作从而得到环境反馈的即时回报,并得到下一个观察oi′;

步骤四:将步骤二到步骤三收集到的数据存入经验回放缓存中;

步骤五:每一个智能体从经验回放缓存中采样相关训练数据;

步骤六:计算每个智能体与其他所有智能体的注意力权重向量,并由此计算中心化Q1值以及Q2值;

步骤七:每个智能体根据上述结果更新步骤一中所有参数;

步骤八:重复步骤三到步骤七直到所有智能体均完成目标或达到指定停止条件;

步骤九:重复步骤二到步骤八直到算法收敛或达到指定停止条件。

2.根据权利要求1所述的方法,其特征在于,步骤一、步骤四以及步骤五中,所述经验回放缓存是指:在整个多智能体强化学习算法的训练过程中,为了训练Q值神经网络,需要将每个智能体在环境中收集到的数据保存下来作为训练数据来进行监督学习。

3.根据权利要求1所述的方法,其特征在于,步骤七中,所述所有参数是指:对于每个智能体i,其所有参数包括三部分:策略网络参数、中心化Q1值网络参数以及中心化Q2值网络参数;其中,通过采用随机梯度下降算法最小化如下损失函数来更新两个Q值网络的参数:其中代表特定智能体的序号,j∈{1,2}表示两个Q值网络,ψ为网络参数;表示所有智能体的联合策略,以及分别表示所有智能体的联合观察以及联合动作;代表每个智能体在观察oi执行动作ai后,获得的环境的即使反馈ri;γ为折扣因子,α为熵正则项的相对系数;所述策略网络参数通过采用如下梯度并运用随机梯度下降算法进行更新:其中φ为策略网络的参数,为经验回放缓存,多智能体环境下的方差缩减项,用以解决信用分配问题。

4.根据权利要求3所述的方法,其特征在于,步骤六中,所述计算每个智能体与其他所有智能体的注意力权重向量的具体步骤包括:

步骤1:对于某个特定智能体i,从经验回放缓存中采样出某一特定时间步包括自身在内的所有智能体的观察集合以及动作集合其中代表多智能体系统中;

步骤2:将步骤1中属于各个智能体j的观察以及动作组合成观察-动作对(oj,aj)并经过编码器得到编码后的特征向量ej

步骤3:将智能体i的特征向量ei与其余所有智能体的特征向量ej≠i输入到一个带有缩放的双线性函数当中,经过缩放后将输出值作为带有稀疏约束的激活函数η-Sparsemax的输入;

步骤4:将步骤3的结果输入到η-Sparsemax函数中,输出结果即为最终的智能体i与所有其余智能体的注意力权重。

5.根据权利要求4所述的方法,其特征在于,步骤2中,所述编码器是指:假定某个特定智能体j的观察-动作对则编码器E是一个带有非线性激活函数ReLU的一层感知机,即其中d′为编码器输出特征向量的维度,即所述编码器E的具体形式为其中为编码器的参数,为全0列向量。

6.根据权利要求4所述的方法,其特征在于,步骤3中,所述双线性函数是指:对于某个特定智能体i,将所有其余智能体的经过步骤三得到的特征向量组合成一个特征矩阵,记为所述双线性函数的具体形式为

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110253904.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top