[发明专利]配置与环境交互的系统在审
| 申请号: | 202010293750.8 | 申请日: | 2020-04-15 |
| 公开(公告)号: | CN111830822A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | A.多尔;C.丹尼尔;M.沃尔普 | 申请(专利权)人: | 罗伯特·博世有限公司 |
| 主分类号: | G05B11/42 | 分类号: | G05B11/42 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张凌苗;申屠伟进 |
| 地址: | 德国斯*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 配置 环境 交互 系统 | ||
1.一种系统(100),用于对根据确定性策略与环境交互的另一系统(200)进行配置,所述策略基于环境的状态来选择另一系统(200)的动作,通过参数集合使所述策略参数化,所述系统(100)包括:
-通信接口(160),其被配置用于与另一系统(200)通信;
-数据接口(120),其用于访问另一系统(200)的交互日志集合;
-处理器子系统(140),其被配置成通过如下来在迭代中迭代地优化所述策略的参数集合:
-经由通信接口从另一系统(200)获得交互数据,所述交互数据指示环境状态和由另一系统(200)执行的对应动作的序列;
-将至少所述交互数据和另一系统(200)根据其选择了所述动作的策略的当前参数集合存储为交互日志集合中的当前交互日志;
-确定所述策略的更新的参数集合,其中确定更新的参数集合包括基于相对于参数集合的累积奖励分布来优化损失函数,累积奖励分布基于在先前迭代中确定的至少一个先前的交互日志,累积奖励分布包括先前交互日志的动作根据当前参数集合正被执行的动作概率,使用由确定性策略根据当前参数集合选择的动作所限定的概率分布来近似所述动作概率;
-经由通信接口向另一系统(200)提供所述策略的更新的参数集合。
2.根据权利要求1所述的系统(100),其中所述策略包括神经网络,参数集合包括所述神经网络的一个或多个权重。
3.根据权利要求1或2所述的系统(100),其中,用于近似所述动作概率的概率分布围绕由确定性策略根据当前参数集合选择的动作而居中。
4.根据权利要求3所述的系统(100),其中概率分布包括高斯分布,所述高斯分布的协方差矩阵独立于当前参数集合。
5.根据前述权利要求中任一项所述的系统(100),其中确定更新的参数集合包括:
-选择交互日志集合的子集;
-优化损失函数,所述损失函数基于针对交互日志集合的子集的累积奖励分布。
6.根据权利要求5所述的系统(100),其中选择交互日志集合的子集包括从交互日志集合对交互日志进行采样,交互日志被采样的概率随着其累积奖励而增加。
7.根据权利要求5或6所述的系统(100),其中累积奖励分布包括根据当前参数集合而出现先前交互日志的日志概率相对于根据交互日志集合的子集的交互日志的参数集合而出现先前交互日志的日志概率的似然比,所述动作概率被包括在所述似然比中。
8.根据前述权利要求中任一项所述的系统(100),其中优化损失函数包括执行随机梯度下降和/或随机梯度哈密顿蒙特卡罗优化。
9.根据前述权利要求中任一项所述的系统(100),其中优化损失函数包括最大化以下各项中的一个或多个:
-预期的累积奖励;
-关于预期累积奖励的下界;
-关于累积奖励的置信下界。
10.根据前述权利要求中任一项所述的系统(100),其中损失函数包括使有效样本大小方面减小的惩罚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010293750.8/1.html,转载请声明来源钻瓜专利网。





