[发明专利]一种基于多智能体强化学习的无人机集群高效通信方法在审
申请号: | 202110441049.0 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113286275A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞扬;詹德川;周志华;练娅莉;袁雷;秦熔均;庞竟成;管聪;罗凡明;张云天;陈雄辉 | 申请(专利权)人: | 南京大学 |
主分类号: | H04W4/46 | 分类号: | H04W4/46;H04W24/02;H04W24/06;G06N3/04 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 无人机 集群 高效 通信 方法 | ||
1.一种基于多智能体强化学习的无人机集群高效通信方法,其特征在于,包括:(1)构建无人机飞行环境模拟器;(2)在无人机集群中,随机选取一架无人机作为队长并标记,其余无人机为队友;(3)队长为观测值中转站,队长收集队员自身局部观测值并维护成全局观测值,发送给队友进行信息交互;(4)基于中心化训练去中心化执行的框架进行,训练阶段以全局观测值作为训练数据,直到策略网络收敛;执行阶段以分布式的方式进行,即每个无人机将自身的局部观测值送到策略执行网络中,得到相应的动作;(5)为了维护队长不被针对攻击,通过奖励函数对队长的存活给一个额外的奖励。
2.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,所述(1)中,基于仿真环境引擎构建基于空气动力学的无人机飞行环境模拟器。
3.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,所述(3)中,每架无人机获取并维护本机的局部观测值,将自身局部观测值进行编码并发送给队长;队长根据每架无人机的自身局部观测值,分别对全局观测值进行注意力机制处理,根据信息的重要程度来决定信息的权重,继而将计算好的观测值发送给每个队友,作为队友的全局观测值。
4.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,每架无人机对自身局部观测值oω进行embedding编码处理,其中每架无人机共享相同的编码机制,队友将编码后包含位置、速度、姿态和状态信息的自身观测值发送给队长,队长收集队友的本机观测值维护成全局观测值。
5.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,初始阶段,无人机根据自身的局部观测值oω,利用策略πω生成相应的动作aω。
6.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,整个无人机协作过程中队长需要存活到最后,从而设计奖励函数,所述奖励函数包括:过程奖励函数结果奖励函数队长奖励函数
7.根据权利要求3所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,注意力机制功能包含三个基本元素:query,key,value,首先通过相似度函数计算给定query与每个key之间的相似度,然后通过softmax函数得到归一化的注意力权重,最后对归一化的注意力权重进行加权求和Attention(Q,Ki)=∑iαiValuei。
8.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,在无人机飞行环境模拟器中,无人机集群与环境交互,获取训练数据。每个无人机获取局部观测值,根据自身的动作策略采取动作,获得奖励值;将以上获得的全局观测值、动作、奖励组成的元组存储到经验回放池中。
9.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,以集中式的方式训练Critic网络,其联合Q值函数定义为其中为动作策略函数的参数,其优化目标为其中为下一刻的目标动作;从训练数据中采样部分样本进行函数优化,直到模型收敛。
10.根据权利要求1所述的基于多智能体强化学习的无人机集群高效通信方法,其特征在于,梯度下降法训练建议策略,最大化累计奖励优化目标为:其中代表不同角色下的策略,ω表示无人机的编号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441049.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水坝用异物分类收集装置
- 下一篇:一种便于运输存储的高效净化水设备