[发明专利]用于操控机器人的方法和设备在审

申请号：	202080022191.5	申请日：	2020-03-05
公开（公告）号：	CN113614743A	公开（公告）日：	2021-11-05
发明（设计）人：	M·赫尔曼;H·L·戴;J·皮特斯	申请（专利权）人：	罗伯特·博世有限公司
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/04;G06N3/08;G06N7/00
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	刘晗曦;刘春元
地址：	德国斯***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于操控机器人方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种用于操控机器人的计算机实现的方法以及用于此的设备，其中按照用于对环境（102）的参数模型（202）进行训练的方法来对环境（102）的参数模型（202）、尤其是深度神经网络进行训练，尤其是其中根据调节对象对模型（202）进行训练，并且其中按照用于以基于模型的方式学习策略（π）的方法来学习策略（π），以及其中根据参数模型（202）和所述策略（π）来操控所述机器人。

背景技术

J. Ho和S. Ermon 的“Generative adversarial imitation learning”（在 D.D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, 和 R. Garnett（编者）的Advancesin Neural Information Processing Systems 29, 第 4565-4573页. CurranAssociates, Inc., 2016中）公开了生成对抗式模仿学习GAIL的方案。GAIL是一种用于训练策略的方法，所述策略应该模仿专家行为。

A. Doerr, C. Daniel, D. Nguyen-Tuong, A. Marco, S. Schaal, T. Marc和S. Trimpe的“Optimizing long-term predictions for model-based policy search”（在 S. Levine, V. Vanhoucke, 和 K. Goldbergt（编者）的Proceedings of the 1stAnnual Conference on Robot Learning, volume 78 of Proceedings of MachineLearning Research, 第 227-238页. PMLR,13-15 Nov 2017中）公开了用于基于模型地学习这种策略的长期预测的方案。

值得期望的是，进一步改善这些操作方法的方案。

发明内容

这通过根据独立权利要求的方法和设备实现。

一种用于对环境的参数模型、尤其是深度神经网络进行训练的计算机实现的方法规定，该模型根据模型状态、行动和奖励确定新的模型状态，其中根据专家轨迹以及尤其是按照策略根据模型状态所确定的模型轨迹来确定奖励，并且其中根据奖励确定模型的至少一个参数。由此，模型的长时间行为被学习，所述长时间行为特别好地匹配于经建模的系统的真实系统行为。

优选地规定，鉴别器根据专家轨迹和模型轨迹确定奖励，其中利用梯度下降方法根据专家轨迹和模型轨迹确定鉴别器的至少一个参数。在roll out（推进）中，专家轨迹被用作参考，发生器、即预给定装置按照某种策略根据模型状态确定模型轨迹来用于与参考进行比较。通过梯度下降方法对鉴别器进行参数化。这使得能够在第一步骤中与模型的训练无关地对鉴别器进行参数化。

优选地，利用基于情节的策略搜索（episode-based policy search）或策略梯度（Policy Gradient）方法、尤其是REINFORCE或TRPO根据奖励来学习模型的至少一个参数。这使得能够在第二步骤中与鉴别器的训练无关地训练模型。优选地首先训练鉴别器，并且使用然后由鉴别器确定的奖励来训练模型。优选地交替地重复这些步骤。

优选地根据针对环境的系统动力学的真实期望值并且根据模型的所建模的期望值来确定奖励。期望值代表基于训练数据点的对实际系统动力学的近似，这使能够更高效地计算出所述训练。

优选地尤其是根据演示确定专家轨迹，其中检测专家在环境状态中尤其是按照专家策略预给定的专家行动，其中环境通过该专家行动以一概率被转变成新的环境状态，并且其中环境状态、专家行动和新的环境状态被确定为专家轨迹的数据点。因此可以特别高效地表示监督式学习。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司，未经罗伯特·博世有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080022191.5/2.html，转载请声明来源钻瓜专利网。

上一篇：用于通过激光焊接制造组合件的方法
下一篇：用于转换差分输入信号的开关装置和具有开关装置的系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于操控机器人的方法和设备在审

专利文献下载