[发明专利]一种航天器深度强化学习莱维飞行控制系统在审
申请号: | 202110593261.9 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113419548A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 汤亮;王勇;袁利;韩冬;黄煌 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G05D1/08 | 分类号: | G05D1/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 褚鹏蛟 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 航天器 深度 强化 学习 飞行 控制系统 | ||
一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。
技术领域
本发明涉及一种航天器深度强化学习莱维飞行控制系统,用于解决各类航天器在轨机动问题。
背景技术
莱维分布是法国数学家莱维(Levy)于20世纪30年代提出的一种概率分布,莱维飞行是一种非高斯随机过程,它是以发生长程跳跃为特点的一类具有马尔科夫性质的随机过程,其步长服从莱维分布,这是一种短距离搜索与偶尔长距离搜索相间的随机行走模式。科学家经过研究发现,许多鸟类、昆虫的飞行路径都遵循莱维飞行的规律。因此,航天器在受到攻击时可以采用莱维飞行,其能够减小击中概率,快速脱离危险区域。
莱维飞行可以简单地用数学描述为
其中,Xt为在t时刻的位置,为点乘运算,Levy(λ)由莱维飞行得到的位置增量,λ为可调参数。
一般采用Mantegna算法模拟Levy(λ),其数学表达式如下所示:
其中,u服从正态分布v服从正态分布N(0,1),
从上式可见,通过调整参数λ可以调整Levy(λ)飞行整体飞行步长。从而可以调节整体的飞行轨迹。
但航天器除了考虑采用何种飞行轨迹外,还要考虑燃料消耗、机动能力等各种复杂的限制因素,因此需要航天器综合选择合适的飞行策略。
现有技术中,尚无已有方案或流程可供借鉴。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,提供了一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。
本发明目的通过以下技术方案予以实现:
一种航天器深度强化学习莱维飞行控制系统,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
在本发明一实施例中,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
在本发明一实施例中,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
在本发明一实施例中,策略网络利用所述特征获得莱维飞行参数。
一种航天器深度强化学习莱维飞行控制方法,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110593261.9/2.html,转载请声明来源钻瓜专利网。