[发明专利]强化学习多智能体沟通与决策方法有效

申请号：	201810606662.1	申请日：	2018-06-12
公开（公告）号：	CN108921298B	公开（公告）日：	2022-04-19
发明（设计）人：	查正军;李厚强;温忻;李斌;王子磊	申请（专利权）人：	中国科学技术大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62;G06N3/063
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习智能沟通决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种强化学习多智能体沟通与决策方法，包括：根据各个智能体的观测状态信息通过神经网络提取相应的状态特征；将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类，得到聚类后的沟通信息；将聚类后的沟通信息分发给各个智能体，由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合，并通过智能体内部的全连接神经网络进行动作决策。该方法可以对各智能体的状态信息进行聚类并与其他智能体进行沟通，进而提高智能体的决策水平。

技术领域

本发明涉及多智能体深度强化学习技术领域，尤其涉及一种强化学习多智能体沟通与决策方法。

背景技术

强化学习(Reinforcement Learning)是一种可实现直接从环境感知到动作映射的算法。通过输入感知信息(比如视觉信息，状态信息)，然后建立映射模型输出动作，进而实现智能体(Agent)在未知环境中的决策过程。深度强化学习结合了深度神经网络和强化学习的优势，可以有效的求解智能体(Agent)在高维陌生复杂环境下的感知决策问题。传统的有监督学习算法通常需要大量的人工标注的训练数据，同时训练得到的模型的水平也受限于训练数据的水平。强化学习通过不断地与环境交互产生数据，并且根据环境的反馈不断迭代自身策略。从而在一定程度上解决了监督学习方法依赖于人工标注的数据、也受限于人类数据水平的问题。因此，深度增强学习是通用人工智能领域的前沿研究方向，具有广阔的应用前景。

常见的深度强化学习主要是应用于单一智能体(Single-Agent)的情况，即环境中只有一个Agent不断与环境进行交互进而获得样本，并且训练一个深度策略网络控制一个Agent。而现实环境中更多的是多智能体的问题，即环境有多个智能体进行决策，多个智能体之间相互影响，共同改变环境的状态。多个智能体之间还有不同的关系(如竞争关系、合作关系等)。对单个智能体而言，其在多智能体环境中进行决策时，同时还应该考虑队友、对手所处的状态以及他们的策略。自然世界和人类社会中的很多问题都可以看作是多智能体的博弈过程(如车辆交通行驶，涉及多人的游戏等等)，因此基于多智能体的强化学习算法有着广阔的应用前景，同时也是人类实现强人工智能的必经之路。

然而，现有的强化学习算法通常只能配合轻量级的神经网络模型，在复杂模型下的性能并不好。因此如何设计高效、简洁、实用的神经网络模型，在全面描述智能体间关系的同时，保证网络结构的精简成为了多智能体强化学习方法的关键。

发明内容

本发明的目的是提供一种强化学习多智能体沟通与决策方法，可以对各智能体的状态信息进行聚类并与其他智能体进行沟通，进而提高智能体的决策水平。

本发明的目的是通过以下技术方案实现的：

一种强化学习多智能体沟通与决策方法，包括：

根据各个智能体的观测状态信息通过神经网络提取相应的状态特征；

将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类，得到聚类后的沟通信息；

将聚类后的沟通信息分发给各个智能体，由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合，并通过智能体内部的全连接神经网络进行动作决策。

由上述本发明提供的技术方案可以看出，基于梯度可传播、聚类中心可学习的VLAD的强化学习多智能体沟通机制，针对多智能体环境下智能体之间的合作问题，可以实现智能体之间有效的沟通和状态信息交互，同时对于智能体数量的动态变化有很强的鲁棒性，最终提高神经网络模型的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的网络模型结构示意图；