[发明专利]基于低阶高斯分布的多智能体协同探索方法及装置有效

申请号：	202010962997.4	申请日：	2020-09-14
公开（公告）号：	CN112215333B	公开（公告）日：	2022-08-12
发明（设计）人：	马骁腾;杨以钦;陆逸文;莫一林;赵千川	申请（专利权）人：	清华大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张大威
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于低阶分布智能体协探索方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置，其中，该方法包括：获取多智能体决策下的状态轨迹，将状态轨迹存入数据缓存器；构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；基于状态轨迹和值函数分解算法的多智能体协同探索过程，对上述构建的相关网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

技术领域

本发明涉及机器学习技术领域，特别涉及一种连续动作控制下基于低阶高斯分布的多智能体协同探索方法及装置。

背景技术

近些年来，借助于深度学习的发展，强化学习在机器人控制、围棋、雅塔力游戏等一系列领域取得了重大突破。在单智能体强化学习中，基于期望奖励的算法是经典的强化学习目标，该类算法虽然在简单游戏环境下具有不错的表现，但是缺乏一定的鲁棒性和探索性。基于低阶高斯分布的最大熵算法修正了基于期望奖励的强化学习算法，并大大提高了算法的鲁棒性和探索性，SAC是这一类算法的典型代表。SAC算法在每一次迭代中将智能体策略的熵和状态动作值结合，通过最大化智能体策略的熵，从而鼓励智能体在更高奖励的区域探索。与单智能体强化学习不同，在多智能体场景下，每个智能体都有自己的局部观测，且每个智能体都需要根据自己的观测做出决策，因此多智能体场景下的策略优化是多个智能体的联合策略优化。目前多智能体的算法设计主要基于值函数进行设计，且该类算法主要分为两类：中心值函数和分解值函数。其中，中心值函数在计算单个智能体的状态动作值函数时考虑了其它智能体的动作，并在连续动作控制场景下超越了其它传统多智能体算法的性能，这种算法具有很好的鲁棒性。

值函数分解方法是将多个智能体的中心值函数进行分解，是目前多智能体值函数学习的主流算法。QMIX算法是值函数分解的代表算法，该算法在基于全局状态信息的条件下，将各个智能体的值函数融合，并保证总体值函数相对于单个智能体的值函数是单调的。这种算法在复杂离散动作控制场景下取得了突出的效果。现实世界中的多智能体环境通常比较复杂，需要多个智能体不断地协同探索从而到达较高奖励区域。由于QMIX算法仅仅考虑最大化单个智能体的状态动作值函数信息，且多个智能体均为独立epsilon探索，因此QMIX算法缺乏一些协同探索性。同时，QMIX算法仅适用于离散动作控制的环境，而现实中的大多数多智能体环境是连续动作控制的。因此，考虑如何利用最大熵方法增强QMIX算法的协同探索性，并应用在连续动作控制下的多智能体环境中具有一定的挑战性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种连续动作控制下基于低阶高斯分布的多智能体协同探索方法，该方法设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的多智能体协同探索算法。

本发明的另一个目的在于提出一种连续动作控制下基于低阶高斯分布的多智能体协同探索装置。

为达到上述目的，本发明一方面实施例提出了基于低阶高斯分布的多智能体协同探索方法，包括以下步骤：步骤S1，获取多智能体决策下的状态轨迹，将所述状态轨迹存入数据缓存器；步骤S2，构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；步骤S3，基于所述状态轨迹和值函数分解算法的多智能体协同探索过程，对所述各个智能体的主值网络、所述各个智能体的主策略网络、所述QMIX主值网络、所述主协同探索网络、所述各个智能体的副值网络、所述各个智能体的副策略网络、所述QMIX副值网络、所述副协同探索网络进行更新；步骤S4，根据所述步骤S3更新的多个网络生成更新后的策略模型，对所述策略模型进行测试。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010962997.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种节能环保且自动稳定机体的投影设备架
下一篇：一种接触网安全措施作业接地装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于低阶高斯分布的多智能体协同探索方法及装置有效

专利文献下载