[发明专利]一种空间精细操作的分层任务规划方法及系统在审
申请号: | 202210233572.9 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114781789A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 解永春;李林峰;王勇;陈奥;梁红义 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N3/04;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 高志瑞 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 空间 精细 操作 分层 任务 规划 方法 系统 | ||
本发明公开了一种空间精细操作的分层任务规划方法及系统,属于空间技术领域。针对策略网络学习多任务时梯度估计方差大、算法收敛性不佳问题,构建基于动力学估计器和Monte Carlo树搜索的高层策略规划,具体包括如下三个步骤:离线数据采集、异步高/低层策略优化、模型评估。本发明提高算法收敛性,有助于节省在轨服务空间操作的星载计算资源,满足实际工程需求。
技术领域
本发明属于空间技术领域,尤其涉及一种空间精细操作的分层任务规划方法及系统。
背景技术
空间精细操作需要学习长时、序列多任务的能力。例如,为了实现对非合作目标的在轨加注任务,服务航天器需要首先进行捕获目标航天器、重定位、切割包覆膜、剪线、开盖等,才能执行加注操作。实际上,很难通过强化学习优化的单个策略网络执行上述多种操作任务。此外,对于多任务/多MDP的强化学习,需要采集的样本数量多,也需要相应地提高策略网络的参数维度,造成优化过程的梯度估计方差大、算法收敛性不佳等方面的问题。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种空间精细操作的分层任务规划方法及系统,有助于降低学习过程的采样复杂度,在算力受限的场景下具有实际意义。
本发明目的通过以下技术方案予以实现:一种空间精细操作的分层任务规划方法,所述方法包括如下步骤:步骤1:离线采集数据集;步骤2:根据数据集进行异步优化高层策略和低层策略;步骤3:对优化后的高层策略和低层策略进行模型评估。
上述空间精细操作的分层任务规划方法中,在步骤1中,离线采集数据集包括如下步骤:利用多刚体动力学仿真平台搭建空间操作环境;根据空间操作环境设计深度神经网络,离线采集数据集。
上述空间精细操作的分层任务规划方法中,数据集为:{s,a,s′,rt,i}t=0:T.i=0:N;其中,s为当前时刻状态,a为当前时刻动作,s′为下一时刻状态,r为当前时刻奖励,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。
上述空间精细操作的分层任务规划方法中,在步骤2中,根据数据集进行异步优化高层策略和低层策略包括如下步骤:步骤2.1:按照周期T进行高层策略优化;步骤2.2:按照周期N*T进行低层策略优化;步骤2.3:采样N~randint(a,b),其中,randint(a,b)代表在[a,b]区间内随机采样整数。
上述空间精细操作的分层任务规划方法中,在步骤2.1中,按照周期T进行高层策略优化包括如下步骤:步骤2.1.1:基于数据集D回归动力学逼近器P;步骤2.1.2:对预设时间窗口内的状态序列进行预处理编码,将编码后的输出信号定义为MCTS的根节点,子目标状态定义为其他节点,宏动作定义为节点间的连接,运行Monte-Carlo树,计算得到目标信号g并输出至低层策略。
上述空间精细操作的分层任务规划方法中,高层策略包含动力学逼近模型P和Monte Carlo树搜索算法A两部分,低层策略以高层策略的动力学逼近模型P输出的目标信号g为引导,根据当前状态s输出控制a,控制空间操作环境E中的执行结构,进而形成系统闭环。
上述空间精细操作的分层任务规划方法中,在步骤3中,对优化后的高层策略πh和低层策略πl进行模型评估包括如下步骤:步骤3.1:圈定以操作对象为中心的正方形区域;步骤3.2:评估高层策略πh,随机将相机位置布置在步骤3.1划定的正方形区域内,运行高层策略πh,校验目标信号g是否与操作对象在相机坐标系下的位置一致;步骤3.3:评估低层策略πl,以3.2步骤给出的目标信号g为输入,运行低层策略πl,校验机械臂末端的最终运行位置与实际操作对象位置的误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210233572.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高抛光液使用效率的抛光垫
- 下一篇:一种电子元件引脚折弯多角度切割装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理