[发明专利]基于强化学习的多弹协同攻击制导律设计方法有效
| 申请号: | 202110007293.6 | 申请日: | 2021-01-05 |
| 公开(公告)号: | CN112799429B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 陈万春;陈中原;岳新成 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G05D1/10 | 分类号: | G05D1/10;G06F30/27 |
| 代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜;王顺荣 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 协同 攻击 制导 设计 方法 | ||
本发明提供了一种基于强化学习的多弹协同攻击制导律设计方法,该方法包括:步骤1,构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T;步骤2,设计协同制导律并构造动作空间;步骤3,构造奖励函数步骤4,网络初始化;步骤5,对于训练中的每个步长,采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ(S′),直到满足终止条件。应用本发明的技术方案,以解决现有技术中难以对多枚处于不同初始条件的导弹实现对某一目标的同时打击,多弹协同攻击通讯负担较重的问题。
技术领域
本发明涉及飞行器控制领域,具体而言,涉及基于强化学习的多弹协同攻击制导律设计方法。
背景技术
近年来,为提升打击效能,协同制导技术得到越来越多的关注。执行协同制导的多枚导弹可以看作是仅基于简单控制律即可相互协作以实现任务目标的多智能体系统。多枚导弹的协同作战在效能上要远远优于单个的高技术和高成本的飞行器。此外,多枚导弹构成的多智能体协同系统也会比单个飞行器具有更丰富的作战能力。其中,多枚处于不同初始条件的导弹实现对某一目标的同时打击是一个极具挑战的问题。
目前,多弹同时攻击的协同制导律可以分为两类。第一类是为协同制导系统指定期望的攻击时间。然而,为处于不同初始条件下的多枚导弹指定同一个攻击时间显然是有困难的。此外,各枚导弹间没有交互,一定程度上降低了多弹协同制导系统对环境的敏感性,甚至使任务失败。另一种方法是不为多弹协同制导系统中的每个导弹指定期望攻击时刻,而是由系统中的各枚导弹相互协调,进而对齐攻击时间,然而,该制导律要求每枚导弹都要有整个系统的全局信息,因而该方案是集中式控制,通讯负担较重。
发明内容
本发明的主要目的在于提供一种基于强化学习的多弹协同攻击制导律设计方法,以至少解决上述问题。
根据本发明的一方面,提供了一种基于强化学习的多弹协同攻击制导律设计方法,包括:
步骤1,构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T;
其中,n为导弹数量,ri为第i枚导弹和目标的相对距离,第i枚导弹估计剩余飞行时间的误差j≠i,第i枚导弹可以获取第j枚导弹的信息时aij=1,第i枚导弹无法获取第j枚导弹的信息时aij=0,为第i枚导弹的剩余飞行时间,为第j枚导弹的剩余飞行时间,为非线性函数;
步骤2,设计协同制导律并构造动作空间;
所述协同制导律结构为其中,aMi为第i枚导弹的加速度,为第i枚导弹的传统的比例导引律,为第i枚导弹的协同控制项;所述动作空间为制导律中的动作
步骤3,构造奖励函数
其中,ri(0)为第i枚导弹和目标的初始相对距离,X1取值范围为0.1至0.5, X2取值范围为8至12,X3取值范围为0.8至1.2,X4取值范围为8至12,X5取值范围为8至12,X6取值范围为0.01至0.03;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110007293.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:存贷款收益率曲线构建方法
- 下一篇:一种便于调节高度的农业除草装置





