[发明专利]基于任务表征和队友感知的多智能体协作方法和装置在审

申请号：	202210624473.3	申请日：	2022-06-02
公开（公告）号：	CN114970826A	公开（公告）日：	2022-08-30
发明（设计）人：	章宗长;俞扬;周志华;王铖鹤;袁雷;张福翔;秦熔均	申请（专利权）人：	南京大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00;B25J9/16
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于任务表征队友感知智能体协方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于任务表征和队友感知的多智能体协作方法和装置，通过学习任务表征和队友感知，智能体能够在无通信的条件下学得高效协作策略，训练得到的智能体策略部署到多智能体系统中后，能够让智能体在与环境不断交互的过程中，根据自身的观测信息对任务有更好的感知与认识，然后结合观测中的队友的信息，与队友进行高效地配合与合作。

技术领域

本发明涉及一种基于任务表征和队友感知的多智能体协作方法和装置，属于多智能体协作控制技术领域。

背景技术

在现实生活中，有很多场景涉及多智能体系统，如游戏博弈、智能交通、智能电网和军事对抗领域，在这些场景中，多智能体通过协作的方式去解决任务尤其重要和广泛。传统的多智能体系统一般采用自动化控制方法，通过咨询领域专家、手动设置策略规则等代价高昂的方式，给不同的智能体指定特定策略以实现协作的目的。虽然传统方法在一些规模较小，任务简单的环境中取得一定的成果，此类方法往往缺乏适应能力，即面对不同的环境，往往需要领域专家重新根据环境重新设置策略规则，代价巨大。

近年来，随着机器学习尤其是深度学习和强化学习的不断蓬勃发展，深度强化学习技术为多智能体之间的协作策略提供了新的解决方案。智能体可以借助强化学习方法，通过与环境交互得到奖赏或惩罚信号，并据此学习到能在环境中得到最高奖赏的策略。多智能体强化学习最近几年也得到了蓬勃的发展，相对于单智能体强化学习任务，多智能体强化学习往往面临局部观测、非稳态、维度爆炸等问题。为了解决前述问题，集中式训练分布式执行框架近来引起广泛关注，在该框架下，训练阶段可以拿到全局信息，而在执行阶段每个智能体仅仅根据局部信息进行决策。

虽然基于集中式训练分布式执行的框架在一些简单任务上取得一些进展，目前的绝大部分研究都忽视了智能体与任务之间的相互关系，在无通信的情况下，不能很好地根据目前的任务分工完成与其他智能体的合作，导致了较低的智能体之间的协作效率。

发明内容

发明目的：针对现有多智能体协作控制技术中的问题与不足，本发明提供一种基于任务表征和队友感知的多智能体协作方法和装置，本发明能在无通信的条件下，通过学习任务和智能体之间的相关程度，自动将智能体分组解决任务的不同部分，提高多智能体协作能力。

技术方案：一种基于任务表征和队友感知的多智能体协作方法，通过学习任务表征和队友感知，智能体能够在无通信的条件下学得高效协作策略，训练得到的智能体策略部署到多智能体系统中后，能够让智能体在与环境不断交互的过程中，根据自身的观测信息对任务有更好的感知与认识，然后结合观测中的队友的信息，与队友进行高效地配合与合作。

所述方法包括：

每个智能体得到自身的局部观测数据，然后通过循环神经网络保留一部分历史观测信息，得到局部观测轨迹数据；

每个智能体根据自身的局部观测轨迹数据通过任务编码器得到原任务中不同任务组成的表征；

每个智能体使用注意力模型计算自身的局部观测轨迹数据和不同任务组成之间的相关度；

每个智能体根据不同任务组成与自身的局部观测轨迹数据的相关度将不同任务组成表征合成为结合任务信息；

每个智能体将自身的局部观测轨迹数据和结合任务信息输入个体值函数网络，得到智能体不同动作对应的值函数，在部署执行时每个智能体选取最大值函数所对应的动作，此即智能体与环境交互要采取的策略。

具体地，所述任务编码器还需要解码器；所述任务编码器通过以下步骤训练获取：

在中心化训练过程中，有一个中心化的模型在多个智能体与环境交互的过程中，计算保留不同任务组成的真实数据；

每个智能体在训练过程中先使用任务编码器得到不同任务组成的表征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】