[发明专利]强化学习多智能体沟通与决策方法有效
申请号: | 201810606662.1 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108921298B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 查正军;李厚强;温忻;李斌;王子磊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06N3/063 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 智能 沟通 决策 方法 | ||
1.一种强化学习多智能体沟通与决策方法,其特征在于,包括:
根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;
将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;
将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策;
其中,VLAD层进行软分配与聚类的过程包括:
采用软分配的方式对各个智能体的状态特征进行VLAD聚类,分配给各聚类点的权重由状态特征加权相乘之后,配合softmax公式给出,表示为:
上式中,wk(Xi)表示第i个智能体的状态特征Xi分配给第k个聚类中心的权重,ak、bk为第k个聚类中心对应的软分配权重,xi为第i个智能体的状态特征Xi所表示的列向量,k′表示对所有的k个聚类中心的遍历,ak′、bk′表示第k′个聚类中心对应的软分配权重;
最终的聚类结果由特征空间中向量和聚类中心之间的距离表征,第k个聚类中心的聚类结果如下:
其中,V(j,k)为第k个聚类中心第j维的聚类结果,也即聚类后的沟通信息;xi(j)为第i个智能体的状态特征Xi所表示的列向量中的第j维,ck(j)为第k个聚类中心点的第j维坐标,N为智能体数量;
所述将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策包括:
各个智能体将自身的状态特征与接收到的聚类后的沟通信息采用串联的方式进行聚合;
然后,由智能体内部的全连接神经网络产生智能体可选的n个动作a1,a2,……an对应的概率分布p1,p2,……pn;在产生n个动作的概率分布之后,依据概率采样产生最终的动作,或者选取概率最大的动作为该智能体的最终动作;
该全连接神经网络为一层或多层,输入层维度为状态特征与聚类后的沟通信息的维度之和,输出层维度与可选动作a1,a2,……an对应,其维度为n。
2.根据权利要求1所述的一种强化学习多智能体沟通与决策方法,其特征在于,状态特征的过程包括:
将每个智能体的观测状态信息进行手工编码,实现从物理世界到数学空间的映射,编码结果为向量形式或者图片形式;
如果映射编码结果为向量形式,则通过MLP网络提取出状态特征;
如果映射编码结果为图片形式,则通过CNN网络提取出状态特征。
3.根据权利要求1所述的一种强化学习多智能体沟通与决策方法,其特征在于,各个智能体执行一个动作后将受到环境反馈回来的奖励信息,各个智能体之间共享模型参数和环境反馈回来的奖励信息,通过奖励的大小衡量之前采取的动作的好坏,进而训练智能体在下一次与环境交互时使用更好的策略;同时,采用课程迁移学习的方式,在训练过程中逐步增加环境的复杂度以及智能体的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810606662.1/1.html,转载请声明来源钻瓜专利网。