[发明专利]用于装置控制的任务嵌入在审

申请号：	201980061818.5	申请日：	2019-09-10
公开（公告）号：	CN112771540A	公开（公告）日：	2021-05-07
发明（设计）人：	斯特凡·劳埃德·詹姆斯;迈克尔·布勒施;安德鲁·戴维森	申请（专利权）人：	帝国理工学院创新有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;B25J9/16
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	王红艳
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于装置控制任务嵌入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种用于机器人装置的控制系统，其包括任务嵌入网络，所述任务嵌入网络用于接收任务的一个或多个演示并生成任务嵌入。所述任务嵌入包括所述任务的表示，并且每个演示包括对执行所述任务的一个或多个观察结果。所述控制系统包括控制网络，所述控制网络用于从所述任务嵌入网络接收所述任务嵌入，并且应用策略以将对所述机器人装置的多个连续观察结果映射到用于所述机器人装置的相应控制指令。由所述控制网络应用的所述策略是使用来自所述任务嵌入网络的所述任务嵌入跨对所述机器人装置的所述多个连续观察结果调整的。

技术领域

本发明涉及使用任务的表示来控制诸如机器人装置的装置，在本文中称为任务嵌入。在某些实施方案中，本发明涉及以使得任务能够由装置执行的方式来处理对任务的演示的至少一个观察结果。本发明与模仿学习和少样本学习领域具有特定但非排他性相关性。

背景技术

人类和动物能够从很少的示例中快速学习新信息，并且明显地提高他们终身“学会学习”的能力。具有类似能力的赋能设备(诸如机器人)将允许高效地获取各种各样的技能，并且允许现有知识适应新的环境和任务。

尝试模拟人类和动物的学习能力的两个领域是模仿学习和元学习。模仿学习旨在通过观察演示者来学习任务。元学习旨在教导机器学会学习。图像识别中的许多单样本和少样本学习方法是元学习的形式，其中期望从少量示例中学习(例如在测试时)。在这些情况下，对系统学习新任务的能力进行测试，而不是对单个任务进行训练并对所述任务的未见的示例进行测试的惯常方法。元学习的常见形式包括递归、度量学习、学习优化器以及模型无关元学习(MAML)。另一种方法是逆向强化学习，其中代理尝试估计描述给定演示的回报函数。

模仿学习中的常见问题是训练此类系统所需的大量数据。少样本学习在实践中难以实现。通常存在一个问题，即任务是独立地学习的，其中学习一个任务并不能加速对另一任务的学习。

机器人技术的新兴趋势是以端对端方式直接从原始传感器数据学习控制。此类方法有潜力具有足够的通用性来学习各种各样的任务，并且已经证明它们能够执行机器人技术中较旧的方法难以实现的任务，诸如视觉与控制之间的协调，或者动态环境任务的协调。然而，这些解决方案通常从头开始学习其技能，并且需要大量训练数据。鉴于此，期望开发提高数据效率的方法。

C.Finn、T.Yu、T.Zhang、P.Abbeel和S.Levine在2017年机器人学习大会上发表的论文“One-shot visual imitation learning via meta-learning”中提出了一种元模仿学习方法，所述方法使得机器人能够学会学习，从而使得机器人能够从单个视觉演示端对端地学习新任务。重新使用来自多个其他任务的演示数据来实现对新任务的高效学习。训练将观察结果映射到预测动作的策略。提出模型无关元学习(MAML)的扩展，以提供模仿学习。在这种情况下，在元训练期间，将演示对用作训练-验证对。在元测试时间，提供对新任务的一个演示，并且更新模型以获取用于新任务的策略。然后，策略使得能够基于对新任务的观察结果来预测输出。策略的参数是神经网络体系结构的参数。神经网络体系结构将RGB图像映射到图像特征中。这些图像特征在映射到机器人动作之前与机器人配置矢量和偏差参数连接(concatenate)起来。

模型无关元学习虽然向前迈出了有益的一步，但在机器人系统方面仍存在多种局限性。例如，一旦培训了策略，除非在测试时再次给出示例，否则它无法完成训练过程中见到的任何任务。同样，一旦学习了特定任务，方法就可失去其元学习的能力，并且无法摆脱仅可用于所述一个任务的一组权重。解决此问题的一种方式是复制每项任务所需的权重，但这会引起可缩放性问题。

鉴于现有技术，期望存在教导机器人装置学习新任务的高效方式。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于帝国理工学院创新有限公司，未经帝国理工学院创新有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201980061818.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于装置控制的任务嵌入在审

专利文献下载