[发明专利]基于低阶高斯分布的多智能体协同探索方法及装置有效
| 申请号: | 202010962997.4 | 申请日: | 2020-09-14 |
| 公开(公告)号: | CN112215333B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 马骁腾;杨以钦;陆逸文;莫一林;赵千川 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 低阶 分布 智能 体协 探索 方法 装置 | ||
1.一种基于低阶高斯分布的多智能体协同探索方法,其特征在于,包括以下步骤:
步骤S1,获取多智能体决策下的状态轨迹,将所述状态轨迹存入数据缓存器;
步骤S2,构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络;
步骤S3,基于所述状态轨迹和值函数分解算法的多智能体协同探索过程,对所述各个智能体的主值网络、所述各个智能体的主策略网络、所述QMIX主值网络、所述主协同探索网络、所述各个智能体的副值网络、所述各个智能体的副策略网络、所述QMIX副值网络、所述副协同探索网络进行更新;
步骤S4,根据所述步骤S3更新的多个网络生成更新后的策略模型,对所述策略模型进行测试;
所述步骤S3进一步包括:
步骤S31,初始化仿真环境env、所述各个智能体的主值网络Qi、所述各个智能体的主策略网络πi、所述QMIX主值网络QMIX、所述主协同探索网络fψ、所述各个智能体的副值网络Q′i、所述各个智能体的副策略网络π′i、所述QMIX副值网络QMIX'、所述副协同探索网络f′ψ;
步骤S32,在当前状态依据策略选取动作转移到下一状态并得到当前时刻的奖励值rt时,根据所述当前状态ot、当前动作αt、所述当前时刻的奖励值rt和所述下一状态ot+1组成四元组(ot,αt,rt,ot+1),并将所述四元组存储进生成数据缓存器Bπ;
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值时,每个时间步取出部分数据对所述各个智能体的主值网络Qi、所述QMIX主值网络QMIX进行更新;
步骤S34,每隔预设时间利用策略梯度对所述各个智能体的主策略网络和所述主协同探索网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体的副策略网络π′i、所述QMIX副值网络QMIX'、所述副协同探索网络f′ψ的参数进行软更新;
所述步骤S33进一步包括:
步骤S331,依据所述各个智能体的策略网络π′i和随机扰动εN、εM选择下一时刻的动作:
α=μ+σεN+KN×MεM
其中,μ=[μi]i∈D,σ=[σi]i∈D,μi,σi=π′i(o′i;φ′i),μi为智能体i主策略网络输出的均值,σi为智能体i主策略网络输出的方差,i为各个智能体的编号,D为经验回放池,π′i为智能体i的副策略网络,o′i为智能体i在下一时刻的观测,φ′i为智能体i副策略网络的参数,KN×M=f′ψ(s';ψ'),f′ψ为多智能体的副协同探索网络,s为全局观测,ψ为协同探索网络的参数;
步骤S332,利用所述QMIX主值网络QMIX计算混合状态-动作值
其中,为所述QMIX主值网络QMIX的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测,为所述各个智能体的主值网络Qi输出的Q值;
步骤S333,利用所述QMIX副值网络QMIX'计算目标混合状态-动作值
其中,为QMIX副值网络QMIX'的两层全连接网络,并对该网络的权重取绝对值,s'为所有智能体的下一时刻的全局观测,为各个智能体主值网络Qi输出的Q'值;
步骤S334,计算多智能体的目标状态-动作值Qtarget:
Qtarget(o,α)=r(o,α)+γES'~P[Vtot(s')]
其中,Qtarget(o,α)为目标总体状态动作值函数,r(o,α)为当前时刻的奖励,α为熵正则项系数且α0,γ为折扣回报因子,ES'~P为状态服从转移概率P时的期望,Vtot(s')=Eα'~π'[Q′tot(s',α')-αlog(π'(α'|s'))],Vtot(s')为目标总体状态值函数,Eα'~π'为动作服从策略π'时的期望,Q′tot为QMIX副值网络QMIX'输出的目标混合状态-动作值,s'为所有智能体的下一时刻的全局观测,α'为下一时刻的动作,-log(π'(α'|s'))为在下一时刻多智能体所选动作的总体熵;
步骤S335,利用梯度下降法更新所述各个智能体主值网络的参数θi,QMIX主值网络QMIX的参数
其中,为混合状态-动作值,Qtarget为多智能体的目标状态-动作值,N为从生成数据缓存器Bπ中采集到的样本数量;
所述步骤S34中,对所述各个智能体的主策略网络πi和所述各个智能体的主协同探索网络fψ进行更新包括:
其中,sk为k时刻的全局观测,α-i为除智能体i外,其它智能体的动作;
所述S34中对所述各个智能体的副值网络Q′i、所述各个智能体的副策略网络π′i、所述QMIX副值网络QMIX'的参数、所述副协同探索网络f′ψ进行软更新过程为:
φ′i←τφi+(1-τ)φ‘i
θ′i←τθi+(1-τ)θ‘i
ψ'←τψ+(1-τ)ψ'
其中,φ′i为各个智能体副策略网络的参数,φi为各个智能体主策略网络的参数,θ′i为各个智能体的副值网络的参数,θi为各个智能体的主值网络的参数,为QMIX副值网络的参数,为QMIX主值网络的参数,ψ'为副协同探索网络的参数,ψ为主协同探索网络的参数,τ为超参数,用于控制从主网络更新副网络参数的程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010962997.4/1.html,转载请声明来源钻瓜专利网。





