[发明专利]基于注意力机制的分布式多智能体协同决策方法有效

申请号：	201811558195.6	申请日：	2018-12-19
公开（公告）号：	CN109726903B	公开（公告）日：	2020-10-16
发明（设计）人：	李明强;陈思;高放;张峰	申请（专利权）人：	中国电子科技集团公司信息科学研究院
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06N3/04
代理公司：	北京中知法苑知识产权代理有限公司 11226	代理人：	李明
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制分布式智能体协决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的分布式多智能体协同决策方法，其特征在于：

多智能体体系中有N个智能体，第i个智能体的局部观测信息为Q_i，空间位置信息为Location_i，i＝1，2，...，N，可选动作维度为m，第i个智能体的动作决策包括如下步骤：

局部观测信息编码步骤S110，对于智能体的局部观测信息Q_i先进行卷积再进行池化，从而得到局部信息编码q_i，

即，用如下两个公式表示该步骤，

首先进行卷积，q_i＝conv(Q_i) 式(1)，

然后进行池化，q_i＝pool(q_i) 式(2)；

基于注意力机制权重计算步骤S120，在该步骤中基于注意力机制分别计算权重系数，根据第i个智能体的局部观测信息Q_i和所有的N个智能体的之间的N个局部观测信息Q_j，j＝1，2，...，N，利用相似性计算方法计算两者的相似性或者相关性得到权重系数Sim_j，j＝1，2，...，N；

注意力(Attention)系数计算步骤S130：根据步骤S120中得到的N个权重系数Sim_j，j＝1，2，...，N，利用Softmax对权重系数Sim_j进行归一化，得到归一化系数α_j，j＝1，2，...，N；该归一化系数α_j即为注意力机制中的注意力(Attention)系数；

局部观测信息加权求和步骤S140：利用归一化系数α_j和每个智能体的局部观测信息编码q_j对局部观测信息进行加权求和，得到第i个智能体的局部观测信息加权和Attention_i，即

注意力信息与位置信息融合步骤S150：对局部观测信息加权和Attention_i进行全连接得到注意力信息特征A_i，对位置信息进行融合得到位置信息特征L_i，然后采用向量的方式融合注意力(Attention)信息特征和位置信息特征得到融合特征Z_i，

注意力信息特征A_i为：A_i＝T*Attention_i，

位置信息特征L_i为：L_i＝P*Location_i，

其中，T为注意力参数、P为位置参数，

注意力信息特征和位置信息特征融合方式如下：

决策概率求解步骤S160：对融合特征Z_i使用全连接提取特征V_i，即V_i＝H*Z_i，其中H为特征提取参数，

对提取后的特征V_i使用softmax进行归一化，求得第j个动作决策概率action_j，

2.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S110中，卷积和池化的大小根据局部观测信息的大小进行自行设定。

3.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S120中，采用向量点积形式计算权重系数，

Similarity(Q_i，Q_j)＝(Q_i，Q_j)，式(3)。

4.根据权利要求1所述的分布式多智能体协同决策方法，其特征在于：

在步骤S120中，采用Cosine相似性计算权重系数，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院，未经中国电子科技集团公司信息科学研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811558195.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载