[发明专利]用于操控机器人的方法和设备在审
| 申请号: | 202080022191.5 | 申请日: | 2020-03-05 |
| 公开(公告)号: | CN113614743A | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | M·赫尔曼;H·L·戴;J·皮特斯 | 申请(专利权)人: | 罗伯特·博世有限公司 |
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘晗曦;刘春元 |
| 地址: | 德国斯*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 操控 机器人 方法 设备 | ||
1.一种用于对环境(102)的参数模型(202)、尤其是深度神经网络进行训练的计算机实现的方法,其特征在于,所述模型(202)根据模型状态(sM)、行动()和奖励(r)确定(506)新的模型状态(sM'),其中根据专家轨迹()以及尤其是按照策略 根据所述模型状态(sM)所确定的模型轨迹(τ)来确定(508)所述奖励(r),并且其中根据所述奖励(r)确定所述模型(202)的至少一个参数(θ)。
2.根据权利要求1所述的方法,其特征在于,尤其是鉴别器(208)根据所述专家轨迹()和所述模型轨迹(τ)确定(508)所述奖励(r),其中利用梯度下降方法根据所述专家轨迹()和所述模型轨迹(τ)确定(512)所述鉴别器(208)的至少一个参数(w)。
3.根据权利要求1或2所述的方法,其特征在于,利用基于情节的策略搜索或策略梯度方法、尤其是REINFORCE或TRPO根据所述奖励(r)学习(510)所述模型(202)的所述至少一个参数(θ)。
4.根据前述权利要求之一所述的方法,其特征在于,根据针对所述环境(102)的系统动力学的真实期望值()并且根据所述模型(202)的所建模的期望值()确定(512)所述奖励(r)。
5.根据前述权利要求中任一项所述的方法,其特征在于,尤其是根据演示确定(502)所述专家轨迹(),其中检测专家在环境状态(sU)中尤其是按照专家策略预给定的专家行动(),其中所述环境(102)通过所述专家行动()以概率被转变成新的环境状态(s'U),并且其中所述环境状态(sU))、所述专家行动()和所述新的环境状态(S'U)被确定(502)为所述专家轨迹()的数据点。
6.根据前述权利要求中任一项所述的方法,其特征在于,在模型状态(sM)中检测(506)根据策略(π)而被预给定的行动(),其中所述模型(202)通过所述行动()以概率被转变到新的模型状态(s'M),其中根据所述模型状态(sM)、所述行动(a)和所述新的模型状态(s'M)确定所述奖励(r)。
7.根据前述权利要求中任一项所述的方法,其特征在于,包括调节对象(302)的环境(102)的参数模型(202)根据所述调节对象(302)被训练(602),其中根据所述模型(202)并且根据所述调节对象(302)的至少一个所检测的实际参量(sR)或所观察的状态参量确定(604)至少一个状态参量或调节参量(y),用于操控所述调节对象(302)。
8.根据前述权利要求中任一项所述的方法,其特征在于,尤其是借助于代理(402)根据所述模型(202)的模型状态(sM)按照策略(π)确定(704)行动(),其中根据所述策略(π)、所述行动()或新的模型状态(s'M)确定(706)奖励(),其中在强化学习方法中根据所述奖励()学习(708)所述策略(π)。
9.一种用于操控机器人的计算机实现的方法,其特征在于,按照根据权利要求8所述的方法对环境(102)的参数模型(202)、尤其是深度神经网络进行训练,并且学习用于操控所述机器人的策略(π),并且其中根据所述参数模型(202)和所述策略(π)来操控所述机器人。
10.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,在通过计算机执行所述计算机可读指令时运行根据权利要求1至9中任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储器,在所述存储器上存储有权利要求10所述的计算机程序。
12.一种用于操控机器人的设备,其特征在于,所述设备被构造用于执行根据权利要求9所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080022191.5/1.html,转载请声明来源钻瓜专利网。





