[发明专利]一种基于强化学习的再入飞行器轨迹规划方法有效
申请号: | 202110339389.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112947592B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 张冉;侯忻宜;李惠峰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 再入 飞行器 轨迹 规划 方法 | ||
1.一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
建立神经网络模型,将步骤二中的状态量作为神经网络模型的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络模型保存,在仿真环境中给出初始状态量作为神经网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
其中,在步骤二中所述的设置该方法的状态量,是指通过飞行器当前的飞行状态量值,推导得到的当前位置与禁飞区和目标点的相对位置关系,其具体作法如下:
当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为与飞行器当前航向角ψ即与正北方向夹角之差为沿着飞行器速度轴,当禁飞区在飞行器左边时,为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈给强化学习的状态量设定为ΔR、OT,其中,ΔR=OA-rzone,rzone为以弧度表示的禁飞区半径;
其中,在步骤二中所述的设计奖励函数,是指由环境反馈给该方法的状态量表示的函数,能称之为奖励信号及强化信号,飞行器根据当前状态做出动作之后,环境会反馈一个奖励,用来更新神经网络模型参数,其具体作法如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数。
2.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤一中所述的建立飞行器运动模型,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由算法策略给出,变化区间设置为[σmin,σmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ。
3.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤四中所述的计算控制策略,其具体作法如下:
经过多次和环境的交互训练,得到能用的神经网络模型,对神经网络模型进行评估;将训练得到的神经网络模型保存,在仿真环境中给出初始状态量作为神经网络模型的输入,实时计算控制量的变化策略,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络模型中,计算控制量,进行飞行器的运动仿真。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110339389.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能型无负压设备及控制方法
- 下一篇:一种可防水的生态农业种植棚