[发明专利]面向MADDPG多智能体强化学习模型的可视分析方法有效
申请号: | 202110504970.5 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113139024B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 史晓颖;梁紫怡;僧德文;张家铭 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N20/00 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 maddpg 智能 强化 学习 模型 可视 分析 方法 | ||
本发明属于信息技术领域,公开了一种面向MADDPG多智能体强化学习模型的可视分析方法,包括如下步骤:步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合;步骤2:训练MADDPG模型,保存并计算重要的中间数据;步骤3:设计标签板,标识智能体和地标;步骤4:设计统计视图;步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能;步骤6:设计交互视图。本发明提出了一种新的可视分析方法,能支持交互式地分析合作类环境中MADDPG模型的工作流程和内部原理。该发明设计了多个协同的视图,从不同角度揭示MADDPG模型的内部执行机制。
技术领域
本发明属于信息技术领域,尤其涉及一种面向MADDPG多智能体强化学习模型的可视分析方法。
背景技术
深度强化学习是当今非常热门的研究领域,已经被用于解决自动驾驶、交通控制、机器人系统控制等各种具有挑战性的应用问题。尽管深度强化学习在这些应用中表现出了优越的性能,研究人员对它们内在的执行机制仍然知之胜少。近几年来,研究人员提出了各种可视分析方法来提升深度强化学习模型的可解释性。对于Q网络(DQN),设计了可视分析系统DQNViz从不同层次揭示智能体的经验空间。对于竞争深度Q网络(dueling DQN)和异步优势行动者评论家(Asynchronous Advantage Actor-Critic)模型,生成显著性图来展示网络关注于输入图像的哪个部分。为了理解具有记忆的深度强化学习模型,研究人员设计了两个可视分析工具:DRLViz和DynamicsExplorer,分别用于辅助分析所训练智能体的内部状态和模拟参数对于内部状态的影响。但是,上述方法都只能分析单智能体强化学习模型。
多智能体深度确定性策略梯度模型(MADDPG,Multi-Agent Deep DeterministicPolicy Gradient)是一个具有代表性的多智能体强化学习模型。该模型采用集中训练和分散执行的机制,能基于所有智能体的观测和动作,对每个智能体学习得到一个评论家。相比于单智能体深度强化学习,分析多智能体深度强化学习模型更具挑战,主要在于:1)智能体数量的增加导致状态空间呈指数级增长,如何可视化由多个智能体生成的经验空间并揭示它们之间潜在的关联?2)多个智能体和不同的环境物体(地标)不断交互,如何直观地可视化随着时间变化的交互过程?现有研究缺乏对多智能体深度强化学习模型的可解释性研究。
发明内容
本发明目的在于提供一种可视分析方法,辅助分析者从不同角度理解MADDPG模型的内在执行原理。该发明针对多智能体合作类游戏环境,通过设计多个协同的视图,不仅能够提供模型训练过程中统计信息的概览,而且支持观察不同游戏轮次下各个智能体的经验空间、某个选定轮次下智能体和环境物体间的动态交互过程,辅助分析者评估所学习得到的评论家的有效性和理解智能体的学习过程。
本发明的具体技术方案如下:
一种面向MADDPG多智能体强化学习模型的可视分析方法,包括如下步骤:
步骤1:选取一款合作类游戏作为MADDPG模型的运行环境,并定义相关的参数集合;
步骤2:训练MADDPG模型,保存并计算重要的中间数据;
步骤3:设计标签板,标识智能体和地标;
步骤4:设计统计视图,包括平均Q值子视图、平均A_loss子视图和平均奖励子视图,展示MADDPG模型的训练统计信息随时间变化的情况;
步骤5:设计评论家行为视图,用于评估模型学习得到的评论家的性能;
步骤6:设计交互视图,包括距离子视图、奖励子视图和故事流子视图,提供在某一轮中智能体和地标交互情况的概览和细节,揭示不同智能体的行为模式。
进一步地,步骤1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110504970.5/2.html,转载请声明来源钻瓜专利网。