[发明专利]用于操控机器人的方法和设备在审

专利信息
申请号: 202080022191.5 申请日: 2020-03-05
公开(公告)号: CN113614743A 公开(公告)日: 2021-11-05
发明(设计)人: M·赫尔曼;H·L·戴;J·皮特斯 申请(专利权)人: 罗伯特·博世有限公司
主分类号: G06N3/00 分类号: G06N3/00;G06N3/04;G06N3/08;G06N7/00
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 刘晗曦;刘春元
地址: 德国斯*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 操控 机器人 方法 设备
【权利要求书】:

1.一种用于对环境(102)的参数模型(202)、尤其是深度神经网络进行训练的计算机实现的方法,其特征在于,所述模型(202)根据模型状态(sM)、行动()和奖励(r)确定(506)新的模型状态(sM'),其中根据专家轨迹()以及尤其是按照策略 根据所述模型状态(sM)所确定的模型轨迹(τ)来确定(508)所述奖励(r),并且其中根据所述奖励(r)确定所述模型(202)的至少一个参数(θ)。

2.根据权利要求1所述的方法,其特征在于,尤其是鉴别器(208)根据所述专家轨迹()和所述模型轨迹(τ)确定(508)所述奖励(r),其中利用梯度下降方法根据所述专家轨迹()和所述模型轨迹(τ)确定(512)所述鉴别器(208)的至少一个参数(w)。

3.根据权利要求1或2所述的方法,其特征在于,利用基于情节的策略搜索或策略梯度方法、尤其是REINFORCE或TRPO根据所述奖励(r)学习(510)所述模型(202)的所述至少一个参数(θ)。

4.根据前述权利要求之一所述的方法,其特征在于,根据针对所述环境(102)的系统动力学的真实期望值()并且根据所述模型(202)的所建模的期望值()确定(512)所述奖励(r)。

5.根据前述权利要求中任一项所述的方法,其特征在于,尤其是根据演示确定(502)所述专家轨迹(),其中检测专家在环境状态(sU)中尤其是按照专家策略预给定的专家行动(),其中所述环境(102)通过所述专家行动()以概率被转变成新的环境状态(s'U),并且其中所述环境状态(sU))、所述专家行动()和所述新的环境状态(S'U)被确定(502)为所述专家轨迹()的数据点。

6.根据前述权利要求中任一项所述的方法,其特征在于,在模型状态(sM)中检测(506)根据策略(π)而被预给定的行动(),其中所述模型(202)通过所述行动()以概率被转变到新的模型状态(s'M),其中根据所述模型状态(sM)、所述行动(a)和所述新的模型状态(s'M)确定所述奖励(r)。

7.根据前述权利要求中任一项所述的方法,其特征在于,包括调节对象(302)的环境(102)的参数模型(202)根据所述调节对象(302)被训练(602),其中根据所述模型(202)并且根据所述调节对象(302)的至少一个所检测的实际参量(sR)或所观察的状态参量确定(604)至少一个状态参量或调节参量(y),用于操控所述调节对象(302)。

8.根据前述权利要求中任一项所述的方法,其特征在于,尤其是借助于代理(402)根据所述模型(202)的模型状态(sM)按照策略(π)确定(704)行动(),其中根据所述策略(π)、所述行动()或新的模型状态(s'M)确定(706)奖励(),其中在强化学习方法中根据所述奖励()学习(708)所述策略(π)。

9.一种用于操控机器人的计算机实现的方法,其特征在于,按照根据权利要求8所述的方法对环境(102)的参数模型(202)、尤其是深度神经网络进行训练,并且学习用于操控所述机器人的策略(π),并且其中根据所述参数模型(202)和所述策略(π)来操控所述机器人。

10.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,在通过计算机执行所述计算机可读指令时运行根据权利要求1至9中任一项所述的方法。

11.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储器,在所述存储器上存储有权利要求10所述的计算机程序。

12.一种用于操控机器人的设备,其特征在于,所述设备被构造用于执行根据权利要求9所述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080022191.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top