[发明专利]配置与环境交互的系统在审

专利信息
申请号: 202010293750.8 申请日: 2020-04-15
公开(公告)号: CN111830822A 公开(公告)日: 2020-10-27
发明(设计)人: A.多尔;C.丹尼尔;M.沃尔普 申请(专利权)人: 罗伯特·博世有限公司
主分类号: G05B11/42 分类号: G05B11/42
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 张凌苗;申屠伟进
地址: 德国斯*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 配置 环境 交互 系统
【说明书】:

配置与环境交互的系统。公开了一种系统(100),其用于配置另一系统(200)、例如机器人系统。另一系统(200)通过重复地进行如下来根据确定性策略与环境交互:从传感器获得指示环境状态的传感器数据、确定当前动作以及向致动器提供使得致动器在环境中实现当前动作的致动器数据。为了配置另一系统,系统(100)基于相对于所述策略的参数集合的累积奖励分布来优化损失函数。累积奖励分布包括先前交互日志的动作根据当前参数集合正被执行的动作概率。使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似所述动作概率。

技术领域

发明涉及一种系统和用于对根据确定性策略与环境交互的另一系统进行配置的计算机实现的方法,所述另一系统诸如在生产线中操作的机器人系统。本发明此外涉及用于与环境交互的系统和对应的计算机实现的方法。本发明此外涉及一种包括用以执行一种或两种方法的指令的计算机可读介质,以及一种包括确定性策略的参数集合的计算机可读介质。

背景技术

用于与环境交互的计算机控制的系统在本领域中是公知的。这样的系统通常包括用于获得环境的测量的一个或多个传感器、用于执行影响环境的动作的一个或多个致动器以及用于基于传感器测量来确定动作的处理器子系统。确定动作的过程经常被称为计算机控制的系统的策略。可以通过参数集合使策略参数化。例如,取决于参数,相同的系统被配置成执行不同的任务。计算机控制的系统包括机器人系统,其中机器人可以例如在外部设备或嵌入式控制器的控制下自动执行一个或多个任务。可以被计算机控制的系统的另外示例是载具及其部件、家用器具、电动工具、制造机器、个人助理、访问控制系统、无人机、纳米机器人和加热控制系统。各种计算机控制的系统可以在环境中自主操作,例如自主机器人、自主代理或智能代理。

本领域中已知的系统可以配置、换言之训练计算机控制的系统,例如,确定计算机控制的系统的策略的参数集合,所述策略的参数集合让计算机控制的系统执行给定的任务。在如机器人学的领域中,确定这样的参数集合可能引起高维和/或连续的控制问题,所述高维和/或连续的控制问题可以使用强化学习技术来解决。在强化学习中,关于给定的奖励函数来优化参数集合。在John Schulman等人的论文“Proximal Policy OptimizationAlgorithms”(其通过引用被并入本文中并且在https://arxiv.org/abs/1707.06347处可获得)中,提出了一种强化学习方法,所述强化学习方法通过交替地进行如下来优化参数集合:与环境交互以及关于刚刚曾被执行的交互而优化替代目标函数。策略是随机的、或者换言之概率性的策略。这意味着噪声被注入到每个动作、例如每个致动器参数中。噪声被用于探索以及用于更新策略以调整有利动作的可能性。

发明内容

用于与环境交互的现有系统和用于训练它们的系统(诸如上面讨论的那些系统)的问题是,它们需要许多环境交互以能够训练计算机控制的系统来执行给定的任务。例如,根据现有技术训练自驾驶汽车可能需要数百万次测试驾驶,或者训练制造机器人可能需要执行对数百万个样本的制造操作。这可以是非常昂贵且耗时的。换言之,现有系统就它们不能够充分地对从与环境的先前交互中学习的数据进行全利用的意义而言是数据低效的。出于该原因,这样的训练系统通常仅仅应用于模拟的环境交互,当应用于真实物理环境中时导致不太准确的策略。

一个相关的问题是,现有系统从先前的环境交互中收集的数据——例如由计算机控制的系统执行的动作和在执行这些动作之后的环境状态的测量——遭受高方差、换言之有不良稳定性。这可能减慢这样的所收集数据可以被用于改进策略的速率,从而减慢向最优策略的收敛。发明人认识到,所收集的数据中的该高方差的一个原因是,声噪既存在于例如由致动器执行的动作中并且还存在于例如由传感器测量的环境状态中。具体地,当执行策略时,在动作中注入的噪声导致一个方差,所述方差可能随着地平线的长度而线性增加。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010293750.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top