[发明专利]一种在干扰条件下多智能体协同合作的训练方法及系统有效
申请号: | 202011029199.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112180724B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 史殿习;张耀文;武云龙;张拥军;郝峰;佘馥江;徐天齐 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G05B13/02;G05B19/418;G06N20/00 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 干扰 条件下 智能 体协 合作 训练 方法 系统 | ||
1.一种在干扰条件下多智能体协同合作的训练方法,其特征在于,包括:
基于构建的训练场景,在至少一个干扰智能体的信号干扰下,多个合作智能体利用各自通信功能连接通信范围内的合作智能体,构建合作智能体组;其中,隶属于所述合作智能体组内的各合作智能体共享感知视野;
基于共享的感知视野,以合作智能体组内的各智能体与环境交互的累计奖励最大为目标,利用多智能体深度确定性策略梯度MADDPG对每个智能体的行为策略进行训练,得到以阻止目标智能体到达目标区域为目的的多智能体协同合作策略;
所述训练场景的构建,包括:
构建多个合作智能体、多个目标智能体和多个干扰智能体;
基于各合作智能体、各目标智能体和各干扰智能体之间的通信干扰和障碍物带来的通信中断及运动干扰构建训练场景;
构建的合作智能体用于对处于自身感知半径内的目标智能体进行巡逻,并与通信范围内的合作智能体共享感知视野,产生协同行动、救援行动和巡逻行动;
构建的目标智能体具有全局视角,用于在避免被合作智能体围捕到前提下,进入目标区域获取胜利;
构建的干扰智能体通过发出阻塞信号来破坏合作智能体之间的联通;
所述基于共享的感知视野,以合作智能体组内的各智能体与环境交互的累计奖励最大为目标,利用多智能体深度确定性策略梯度MADDPG对每个智能体的行为策略进行训练,得到以阻止目标智能体到达目标区域为目的的多智能体协同合作策略,包括:
基于共享的感知视野,将同一合作智能体组内各合作智能体的动作与状态信息放入MADDPG网络中,以各合作智能体与环境交互的累计奖励作最大为目标,并以每个己方智能体的行为策略作为优化变量进行集中训练,得到每个合作智能体的行为策略;
每个合作智能体分别执行各自的行为策略,以阻止目标智能体到达目标区域;
其中,基于每个合作智能体的行为策略构成多智能体协同合作策略,所述协同合作包括:协同行动、救援行动和巡逻行动;
所述MADDPG网络的训练,包括:
S301初始化估计actor网络和估计critic网络的参数;
S302对环境进行随机动作探索,将从环境中采样到的信息(x,a,r,x′)存入到回放池中;其中x是所有合作智能体在t时刻对环境的联合观察值,a是所有合作智能体t时刻分别执行的动作,r是所有合作智能体动作执行完后分别得到的环境的奖励反馈,x′是所有合作智能体动作a执行完后,所有合作智能体在t+1时刻对环境的联合观察;
S303从所述回放池中提取样本数据(x,a,r,x′),将所述回放池中动作a和环境观察信息输入到估计critic网络,计算出估计Q值,将环境观察信息输入到估计actor网络,计算出合作智能体在环境中执行的动作a;
S304使用损失函数来更新估计critic网络,并使用优化目标函数来更新估计actor网络;
S305使用软更新,将估计网络的参数拷贝至目标网络,当达到训练次数时结束训练,否则执行S303;
所述损失函数如下式:
式中:L(θi)为损失函数;ES,a,R,S′为在基于当前/下一阶段状态、动作、奖励S,S′,a,R的变量基础上所求的期望;为在一定策略μ下的合作智能体i的估计Q值;m为合作智能体组内相互连通智能体的个数;y为基于奖励ri和更新后策略μ′下合作智能体i的现实Q值;
其中,所述基于奖励ri和更新后策略μ′下合作智能体i的现实Q值y,按下式计算:
式中:γ为折扣系数;为现实critic网络在基于更新后的策略μ′所生成的具体Q值;μ′(o′i)为根据下一观测状态o′i更新后的策略μ′;
相应的,所述目标函数如下式:
式中:为目标函数J(μi)的梯度求解;θi为合作智能体i的actor的网络参数;为对参数θi进行求导,对θi进行更新;μi为合作智能体i的策略;ai为合作智能体i的动作;oi为合作智能体i的观测值;S(m)为合作智能体组内的状态集合;a(m)为合作智能体组内的动作集合;ai=μi(oi)为基于观察向量oi,通过策略函数μi所求出的具体动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011029199.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种喷胶枪的均匀出胶装置
- 下一篇:自清理耐磨卸灰球阀