[发明专利]基于多智能体深度强化学习的无人机控制方法及系统有效
| 申请号: | 202011118496.4 | 申请日: | 2020-10-19 |
| 公开(公告)号: | CN112256056B | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 陈武辉;杨志华;郑子彬 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G05D1/10 | 分类号: | G05D1/10;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 苏云辉 |
| 地址: | 510006 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 深度 强化 学习 无人机 控制 方法 系统 | ||
1.基于多智能体深度强化学习的无人机控制方法,其特征在于,包括:
根据无人机群信息采集系统的参数建立信息采集任务模型;其中,所述信息采集任务分为采集子任务和计算子任务;
将无人机群信息采集系统的参数转化为系统的状态空间和智能体的动作空间,并设置即时奖励函数;
根据所述任务模型构建深度神经网络模型,利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型;其中,所述深度神经网络模型包括actor网络和critic网络,所述actor网络包含估值actor网络和目标actor网络,所述critic网络包含估值critic网络和目标critic网络,所述critic网络在三层全连接层上嵌入了注意力单元,所述智能体为无人机;
在训练actor网络时,使用带有注意力单元的critic网络对actor网络的性能进行评估,其具体过程为:
首先,无人机群中无人机的数量为N,将无人机i的观察值oi和动作值ai输入单层的全连接层中得到每架无人机的状态动作特征值g(oi,ai),将所有无人机的状态动作特征值输入到注意力单元中;
注意力单元根据无人机i特征值与其余无人机j特征值计算无人机j的注意力权重αj:
其中,和Wq为可学习的注意力参数矩阵,1≤i≤N,j≠i;
根据注意力权重和其余无人机特征值通过加权和的方式计算其余无人机对无人机i的影响值ei:
将无人机i的状态动作特征值g(oi,ai)和影响值ei输入到双层全连接层网络中得到该无人机的动作状态价值Qi;
利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。
2.根据权利要求1所述的基于多智能体深度强化学习的无人机控制方法,其特征在于,利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型具体包括:
S201:随机初始化系统状态和神经网络参数;
S202:根据所述系统状态和无人机的观察范围获取每架无人机当前时隙的观察值X=[o1,o2,...,oM];其中,M为无人机群中无人机的数量;
S203:将每架无人机的观察值oi输入到对应的actor网络中,得到各无人机对应的动作值ai;其中,1≤i≤M;
S204:根据系统状态和当前时隙所有无人机的动作值A=[a0,a1,...,aM]得到所有无人机的奖励R=[r0,r1,...,rM]、系统下一个时隙状态S′和观察值X′=[o′1,o′2,...,o′M],将经验样本(X,A,R,X′)存放到智能体的经验池中;
S205:重复S202-S204直至经验池样本数量达到设定阈值,从所述经验池中抽取一定数量的经验样本对神经网络参数进行更新,直至actor网络的策略函数收敛。
3.根据权利要求1所述的基于多智能体深度强化学习的无人机控制方法,其特征在于,利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务具体包括:
将实际环境下无人机系统的状态和每架无人机的观察值进行参数化;
将无人机参数化后的观察值输入到训练好的actor网络中得到无人机的动作值;
将所述动作值转换为采集指令和计算指令,无人机根据所述采集指令和计算指令进行信息采集和计算迁移。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011118496.4/1.html,转载请声明来源钻瓜专利网。





