[发明专利]一种基于多智能体强化学习的无人机集群协同学习方法在审
| 申请号: | 202010944781.5 | 申请日: | 2020-09-10 |
| 公开(公告)号: | CN112131660A | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 俞扬;詹德川;周志华;袁雷;张云天;付聪;庞竟成;罗凡明;贾俊华 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G06F30/28;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 强化 学习 无人机 集群 协同 学习方法 | ||
1.一种基于多智能体强化学习的无人机集群协同学习方法,其特征在于:在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数进行表示,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。
2.根据权利要求1所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,构建环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始化无人机观测值oα;
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值其中Qα为无人机α的值网络,hα指无人机α执行的动作,oα表示来自步骤2的初始局部观测值;通过建议发起策略向无人机合作集群中的队友发起建议请求,获得队友所给建议观测值o-α指来自队友的观测值,Q-α指队友无人机的值网络,h-α指队友无人机-α执行的动作,最终整个环境信息的联合观测值为其中指i、j无人机作为Student所获得的观测值,指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为无人机集群中每个无人机与环境模拟器进行交互,将联合观测值输入到联合策略网络其中指无人机i、j作为Student的策略网络,指无人机i、j作为Teacher的策略网络,将得到联合动作其中指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励其中指无人机i、j作为Teacher所获得的奖励;
步骤6,将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值存储到经验回放池中,供后续训练;
步骤7,从步骤6中的经验回放池中采样部分样本对Critic网络Q与Actor网络进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。
3.根据权利要求2所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,根据MADDPG框架设定,在策略优化中基于执行者-评论家框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:
其中是损失函数,为待优化参数,E是指求期望,分别来自经验共享池的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,是动作值函数,是策略网络,指根据策略预测出来的下一步的可能动作。
4.根据权利要求2所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,Actor网络更新目标如下:
其中表示求梯度,为策略更新目标,是策略网络待优化参数,E是指求期望,分别来自经验共享池的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,为动作值函数,表示联合策略网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010944781.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种银屑病熏蒸治疗装置
- 下一篇:一种多层次搅拌的污染土壤清洗设备





