[发明专利]一种机械臂路径规划方法、系统及装置有效

申请号：	201811333508.8	申请日：	2018-11-09
公开（公告）号：	CN109176532B	公开（公告）日：	2020-09-29
发明（设计）人：	刘智勇;熊方舟;张丰一;杨旭;乔红	申请（专利权）人：	中国科学院自动化研究所
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种机械路径规划方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于机器人技术领域，具体涉及一种机械臂路径规划方法、系统及装置，旨在解决从序贯式数据逐步建立序列模型而发生灾难性遗忘的问题。本发明方法包括，从多任务序列R中选取一个未经优化的任务R_i；基于任务R_i的局部策略p_i来生成成功抓取的样本轨迹集合D_m；基于D_m拟合线性高斯动力学模型；采用直接优化单一的局部策略的方法优化得到优化后的局部策略p¹_i；基于p¹_i生成成功抓取的样本轨迹集合D¹_m；采用EWC算法，基于D¹_m优化全局策略π_θ；重复上述步骤直至R任务被遍历，输出最后优化的到的全局策略π_θ，进行机械臂多任务下的路径规划。通过本发明从序贯式数据逐步建立序列模型而不发生灾难性的遗忘。

技术领域

本发明属于机器人技术领域，具体涉及一种机械臂路径规划方法、系统及装置。

背景技术

人类通常能够仅从单个的训练示例中正确的推广到其他任务中，为了能够做到这点，人类成功地利用先前学习任务中获得的知识，以偏向后续的学习。相反地，机器学习方法尚未成功设计出可以从非常小的数据集中很好的泛化的鲁棒学习算法。与大多数旨在单独学习单一功能的机器学习方法相比，自主学习解决了学习者面对学习任务流的情况。如果知识通过多个学习任务传递，这些场景提供了产生协同效应的机会。多任务学习是一种归纳迁移机制，利用额外的信息来提高当前任务的学习性能，包括提高泛化准确率，学习速度和已学习模型的可理解性。在序列多任务学习中，在学习当前任务时，会侧重于当前任务的信息，而倾向于遗忘之前任务的相关信息，学习了新的任务或数据会使先前的任务性能大幅下降。因此，存在着遗忘先前任务信息的问题。本发明提出应用强化学习的框架来解决自主学习的问题。

作为人工智能领域的核心组成部分，强化学习为了机器人领域提供了一个框架和一套工具，用于设计复杂且难以设计的行为以与现实世界进行交互。换句话说，强化学习使机器人能够通过试错自主地寻找最优行为。总的来说，强化学习是学习如何从状态映射到行为来使长期奖励信号最大化。

从学习过程中获得的初始经验来估计预期的长期奖励需要使用传统的方法，例如动态规划方法和时序差分方法。然而传统的方法不能满足机器人领域中高维连续的状态空间和行为空间的要求。强化学习中的策略搜索方法已经被广泛应用于机器人任务中。直接策略搜索能够有效的解决高维的复杂系统，但是这种方法需要足够多的样本。此外，尽管随着深度强化学习的发展，策略搜索仍然比较容易陷入局部次优解中。

引导式策略搜索(guided policy search,GPS)引入了轨迹优化来缓解样本问题，从而引导策略搜索远离局部最优解。这种方法主要了利用以轨迹为中心的优化来生成合适的样本，并引导学习过程来训练复杂的高维策略。然而，目前的GPS算法只能对不同的任务采用批量的模式来训练策略，并且会遇到增量数据处理的挑战。如果所有的训练任务是按序列给出，并且在早期训练时期不能集体给出所有训练任务，则GPS的方法将不起作用。

GPS方法可以针对单个任务的情况从流数据进行学习策略。大多数的强化学习算法，例如，Q-learning算法和Sarsa算法，只能在在线模式下针对一项任务工作。另一方面，有许多在线学习模型用于解决多任务问题。但是，GPS方法在不知道先验知识和特定的序列的情况下不能处理多个不同的学习任务。在没有灾难性遗忘的情况下持续学习的能力对于实现与现实世界的有效交互具有重要意义。例如，在机器人应用领域，算法必须满足强大的实时要求，这通常对在线学习场景提出了更高的要求。具体而言，机器人将被要求学习实时处理序列任务的技能，并迅速的适应动态环境。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811333508.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种串联型机器人运动学标定方法和系统
下一篇：一种工业通用六轴机器人校准系统

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种机械臂路径规划方法、系统及装置有效

专利文献下载