[发明专利]基于注意力机制与强化学习的多智能体游戏AI设计方法有效
申请号: | 202111375819.2 | 申请日: | 2021-11-19 |
公开(公告)号: | CN114130034B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张宁宁;王立;郝建业;郑岩;马亿;王维埙 | 申请(专利权)人: | 天津大学 |
主分类号: | A63F13/60 | 分类号: | A63F13/60;A63F13/67;G06N20/20;G06F18/214;G06F18/23213;G06N3/045;G06N3/092 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 强化 学习 智能 游戏 ai 设计 方法 | ||
1.一种基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,该方法具体包括以下步骤:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组;所述步骤1进一步包括以下处理:
步骤1-1、独立执行过程,智能体i根据自身观测将所有局部的实体观测信息进行划分,所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息以及完成转换的整体即时奖励rt;将所有智能体的观测信息动作整体即时奖励rt以及下一个时刻所有智能体的观测信息存储在经验回放缓冲区中;
步骤1-4、构建联合动作表征函数u、观测信息预测器Φ以及即时奖励预测器Ψ,通过表征函数g、f以及u分别输出对应的各个部分观测信息表征以及联合动作表征;用于优化f,g的损失函数;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:根据不同的分组的信息对智能体最终选择正确的策略的影响程度不同于当前对于正确选择无关的分组信息为模糊智能体对正确策略的选择,实现了智能体识别与当前正确决策无关或者弱相关的分组信息,通过注意力机制的方式对其进行弱化,进行智能体正确的决策;所述步骤2进一步包括以下处理:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111375819.2/1.html,转载请声明来源钻瓜专利网。