[发明专利]一种航天器深度强化学习莱维飞行控制系统在审
申请号: | 202110593261.9 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113419548A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 汤亮;王勇;袁利;韩冬;黄煌 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G05D1/08 | 分类号: | G05D1/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 褚鹏蛟 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 航天器 深度 强化 学习 飞行 控制系统 | ||
1.一种航天器深度强化学习莱维飞行控制系统,其特征在于,包括:
基于深度学习的特征提取模块,用于根据航天器的状态信息获取特征;
基于深度强化学习自主规划模块,利用特征进行预测,并获得莱维飞行参数;
莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;
航天器姿轨控模块,用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。
2.根据权利要求1所述的控制系统,其特征在于,基于深度学习的特征提取模块利用深度神经网络,对航天器的状态信息进行提取。
3.根据权利要求1或2所述的控制系统,其特征在于,评价网络利用所述特征进行预测,测的结果包括Q值和击中概率。
4.根据权利要求1或2所述的控制系统,其特征在于,策略网络利用所述特征获得莱维飞行参数。
5.一种航天器深度强化学习莱维飞行控制方法,其特征在于,包括如下步骤:
从航天器的状态信息中提取特征;
基于该特征,利用评价网络进行预测,利用策略网络生成莱维飞行参数;
根据航天器的状态信息和莱维飞行参数,确定下一时刻的飞行轨迹;
控制飞行器跟踪下一时刻的飞行轨迹。
6.根据权利要求5所述的控制方法,其特征在于,航天器的状态信息包括位置、姿态、速度、角速度和击中概率。
7.根据权利要求5或6所述的控制方法,其特征在于,采用强化学习方法训练策略网络。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求5至7中任一项所述的控制方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110593261.9/1.html,转载请声明来源钻瓜专利网。