[发明专利]基于散度的多智能体合作学习方法、装置、设备及介质有效
申请号: | 202110315995.0 | 申请日: | 2021-03-24 |
公开(公告)号: | CN113095498B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 卢宗青;苏可凡 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N20/00;G06F16/2455 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 合作 学习方法 装置 设备 介质 | ||
本发明公开了一种基于散度的多智能体合作学习方法、装置、设备及存储介质,所述方法包括:初始化值网络、策略网络以及目标策略网络;根据预设的基于散度的正则项改变值网络、策略网络、目标策略网络的更新方式,得到最新更新方式;多个智能体根据所述值网络、策略网络以及目标策略网络进行训练,得到经验数据,并根据所述经验数据以及所述最新更新方式,更新值网络、策略网络以及目标策略网络;多个智能体从环境中获取观察数据,并结合经验数据以及更新后的策略网络进行决策,得到行动数据。本公开实施例提供的多智能体合作学习方法,利用基于散度的正则项增强了智能体的探索能力,解决了多智能体的合作问题。
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于散度的多智能体合作学习方法、装置、设备及介质。
背景技术
强化学习智能体可通过与环境进行交互的方式完成行为策略的自主学习,因此在诸如机器臂控制、棋牌类游戏以及游戏等单智能体领域的任务中获得成功应用。但是,现实生活中的很多任务往往需要多个智能体通过协作完成,如物流机器人、无人驾驶、大型即时战略游戏等任务。因此,多智能体合作学习在近年来愈发受到关注。
在协作型多智能体任务中,由于通信限制,每个智能体通常只能感知到自己可视范围内的局部信息。如果每个智能体根据各自的局部信息进行学习,则智能体之间很难形成有效的协作。现有技术中,通过加入熵正则项的方式提高智能体的探索能力,但是加入熵正则项同时也修改了原来的马尔科夫决策过程,这就导致了基于熵正则的强化学习得到的收敛策略并不是原问题的最优策略。会给收敛策略带来偏差。
发明内容
本公开实施例提供了一种基于散度的多智能体合作学习方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本公开实施例提供了一种基于散度的多智能体合作学习方法,包括:
初始化值网络、策略网络以及目标策略网络;
根据预设的基于散度的正则项改变值网络、策略网络、目标策略网络的更新方式,得到最新更新方式;
多个智能体根据值网络、策略网络以及目标策略网络进行训练,得到经验数据,并根据经验数据以及最新更新方式,更新值网络、策略网络以及目标策略网络;
多个智能体从环境中获取观察数据,并结合经验数据以及更新后的策略网络进行决策,得到行动数据。
在一个可选地实施例中,根据预设的基于散度的正则项改变值网络、策略网络、目标策略网络的更新方式之前,还包括:
根据基于散度的正则项构建多智能体的最大化目标函数。
在一个可选地实施例中,基于散度的正则项为:
其中,π表示策略网络,at表示动作,st表示状态,ρ表示目标策略网络。
在一个可选地实施例中,根据预设的基于散度的正则项,改变值网络的更新方式,包括:
值网络根据最大化目标函数更新:
其中,λ是正则项系数,π表示策略网络,ρ表示目标策略网络,φ是值网络的参数,是目标值网络的参数,s表示环境中的全部信息,a表示动作,y表示需要拟合的目标值,r表示全局奖励,E表示数学期望,γ表示折扣因子,s′表示智能体决策后环境转移到的新状态,a′表示智能体在新的状态下做出的动作,表示值网络的损失函数,表示目标值网络,Qφ表示值网络,τ表示目标值网络进行滑动平均更新的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110315995.0/2.html,转载请声明来源钻瓜专利网。