[发明专利]一种空间碎片清除任务的规划方法及装置有效
申请号: | 201911146850.1 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110991712B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 杨家男;侯晓磊;冯乾;苏笑宇;刘勇;潘泉 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N5/01;G06N3/092;G06Q10/04;G06Q10/063;G06F111/08 |
代理公司: | 西安维赛恩专利代理事务所(普通合伙) 61257 | 代理人: | 刘艳霞 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 空间 碎片 清除 任务 规划 方法 装置 | ||
1.一种空间碎片清除任务的规划方法,其特征在于,包括:
获取待清除空间碎片信息和航天器状态信息;
根据所述待清除空间碎片信息和航天器状态信息构建强化学习搜索树模型;其中,在所述强化学习搜索树模型中包括状态量、动作和收益值;
生成序列:根据所述强化学习搜索树模型的初始状态,采用上确界树搜索方法生成动作;根据所述状态量和动作生成下一个的状态量,当生成的状态量为终止状态量,生成空间碎片的清除序列及对应的收益值;所述上确界树搜索方法由蒙特卡洛树搜索方法和UCB项组成;其中,所述UCB项为U(s,a)为UCB项,s表示状态,a表示动作,cpuct为调节探索比例的参数,P(s,a)表示节点选择概率,N(s,b)表示状态为s、动作为b时的节点访问次数,N(s,a)表示节点访问次数;
其中,在所述上确界树搜索方法的扩展过程中,通过随机或者构建好的神经网络模型选择动作;在所述上确界树搜索方法的模拟过程中,模拟方式选择随机模拟方式;
重复执行生成序列步骤,直至所述清除序列的数量达到第一预定数量时,选择所述收益值最大的清除序列,作为所述待清除空间碎片的最优清除序列;
采用上确界树搜索方法生成动作具体通过执行,π(a|s0)表示动作选择策略,s0是输入给UCT搜索的上一时刻的航天器状态信息,N(s0,a)表示状态为s0、动作为a时的节点访问次数,N(s0,b)表示状态为s0、动作为b时的节点访问次数,τ为外圈循环控制的模拟退火参数,b代表可能的动作;
所述状态量包括剩余待清除空间碎片的数量、航天器的剩余能量、当前空间碎片清除任务的剩余时间、下一个待清除的空间碎片编号和所有空间碎片状态的二进制表达;
所述动作为航天器从一个空间碎片前往另一个空间碎片所执行的动作;
所述收益值为针对一个状态量采取一个动作后得到的评分值。
2.如权利要求1所述的一种空间碎片清除任务的规划方法,其特征在于,在生成序列步骤中,当生成的状态量为非终止状态量时,重复执行以下步骤:
根据当前的状态量,采用上确界树搜索方法中的第一策略生成动作;
根据当前的状态量以及生成的动作生成下一状态量;
判断所述下一状态量是否为终止状态量。
3.如权利要求2所述的一种空间碎片清除任务的规划方法,其特征在于,根据当前的状态量以及生成的动作生成下一状态量包括:
获取当前状态量;
当当前状态量为非终止状态量且满足第一预设条件时,根据所述第一策略从预先构建好的动作库中选择动作;
根据选择的所述动作和当前状态量生成下一状态量。
4.如权利要求3所述的一种空间碎片清除任务的规划方法,其特征在于,当当前状态量为非终止状态量且不满足第一预设条件时:
以当前状态量为输入信息,采用上确界树搜索方法中的扩展和模拟过程生成第二策略;
根据所述第二策略从预先构建好的动作库中选择动作。
5.如权利要求4所述的一种空间碎片清除任务的规划方法,其特征在于,采用上确界树搜索方法中的扩展和模拟过程生成第二策略的方法为:
根据当前状态量,通过随机或者构建好的神经网络模型从预先构建好的动作库中选择动作;
根据动作和当前状态量生成下一状态量;
根据状态量随机从预先构建好的动作库中选择动作,直至状态量为终止状态量,生成待清除空间碎片的清除序列;
更新该清除序列中的每个空间碎片的收益值;
当清除序列的数量达到第二预定数量时,根据每个空间碎片的收益值生成第二策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911146850.1/1.html,转载请声明来源钻瓜专利网。