[发明专利]基于多智能体深度强化学习的无人机控制方法及系统有效

申请号：	202011118496.4	申请日：	2020-10-19
公开（公告）号：	CN112256056B	公开（公告）日：	2022-03-01
发明（设计）人：	陈武辉;杨志华;郑子彬	申请（专利权）人：	中山大学
主分类号：	G05D1/10	分类号：	G05D1/10;G06N3/04;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	苏云辉
地址：	510006 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能深度强化学习无人机控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多智能体深度强化学习的无人机控制方法，其特征在于，包括：

根据无人机群信息采集系统的参数建立信息采集任务模型；其中，所述信息采集任务分为采集子任务和计算子任务；

将无人机群信息采集系统的参数转化为系统的状态空间和智能体的动作空间，并设置即时奖励函数；

根据所述任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型；其中，所述深度神经网络模型包括actor网络和critic网络，所述actor网络包含估值actor网络和目标actor网络，所述critic网络包含估值critic网络和目标critic网络，所述critic网络在三层全连接层上嵌入了注意力单元，所述智能体为无人机；

在训练actor网络时，使用带有注意力单元的critic网络对actor网络的性能进行评估，其具体过程为：

首先，无人机群中无人机的数量为N，将无人机i的观察值o_i和动作值a_i输入单层的全连接层中得到每架无人机的状态动作特征值g(o_i，a_i)，将所有无人机的状态动作特征值输入到注意力单元中；

注意力单元根据无人机i特征值与其余无人机j特征值计算无人机j的注意力权重α_j：

其中，和W_q为可学习的注意力参数矩阵，1≤i≤N,j≠i；

根据注意力权重和其余无人机特征值通过加权和的方式计算其余无人机对无人机i的影响值e_i：

将无人机i的状态动作特征值g(o_i，a_i)和影响值e_i输入到双层全连接层网络中得到该无人机的动作状态价值Q_i；

利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。

2.根据权利要求1所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型具体包括：

S201：随机初始化系统状态和神经网络参数；

S202：根据所述系统状态和无人机的观察范围获取每架无人机当前时隙的观察值X＝[o₁，o₂，...，o_M]；其中，M为无人机群中无人机的数量；

S203：将每架无人机的观察值o_i输入到对应的actor网络中，得到各无人机对应的动作值a_i；其中，1≤i≤M；

S204：根据系统状态和当前时隙所有无人机的动作值A＝[a₀，a₁，...，a_M]得到所有无人机的奖励R＝[r₀，r₁，...，r_M]、系统下一个时隙状态S′和观察值X′＝[o′₁，o′₂，...，o′_M]，将经验样本(X，A，R，X′)存放到智能体的经验池中；