[发明专利]一种基于深度强化学习的无人机机动决策方法有效
申请号: | 202110364100.2 | 申请日: | 2021-04-03 |
公开(公告)号: | CN113093802B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 李波;甘志刚;梁诗阳;高晓光;万开方;越凯强;杨志鹏 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10;G05D1/08 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人机 机动 决策 方法 | ||
本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
技术领域
本发明属于无人机技术领域,具体涉及一种无人机机动决策方法。
背景技术
无人机自凭借零伤亡、机动性能强、成本低、隐身性等优势进入军事领域以来,已经被快速并广泛的应用于各类军事用途。然而,现在的无人机在作战方面仍需要有人机或者地面站指挥员的指挥控制,未能实现真正的自主能力,无人机的自主机动决策也逐渐成为无人机领域重要的研究内容之一。
近年来,国内外针对无人机自主智能机动决策问题具有广泛的研究。崔明朗等人提出采用蒙特卡洛强化学习方法实现近距空战机动决策。该方法将动作空间离散化,选择态势评估函数构建状态空间,以空战结果作为返回奖赏的依据,保证机动动作的连续性。专利CN110488872A采用D3QN网络实现无人机的实施路径规划。胡真财设计了基于Q学习(Q-learning)与价值评估网络的空战机动决策方法。该方法将作战动作空间离散化,实现与敌机的对抗机动决策过程。
这些方法没有考虑空战具有大状态空间及大机动的特点,因此以确定性深度强化学习算法进行决策可能无法获取最优结果。
发明内容
为了克服现有技术的不足,本发明提供了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
步骤S4:构建SAC算法模型结构;
步骤S5:定义SAC算法模型参数并进行训练;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364100.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水利工程用淤泥打捞装置
- 下一篇:一种瓦楞纸压痕装置