[发明专利]用于连续控制任务的数据高效强化学习在审

申请号：	201880014744.5	申请日：	2018-01-31
公开（公告）号：	CN110383298A	公开（公告）日：	2019-10-25
发明（设计）人：	M.里德米勒;R.哈夫纳;M.维切里克;T.P.利利克拉普;T.兰珀;I.波波夫;G.巴斯-马龙;N.M.O.希斯	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	英国***	国省代码：	英国;GB
权利要求书：	查看更多	说明书：	查看更多
摘要：	用于数据高效的强化学习的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述系统之一是一种用于训练行动者神经网络的系统，所述行动者神经网络用于选择要由通过接收表征环境的状态的观察并且响应于每个观察执行从可能的动作的连续空间选择的动作而与所述环境交互的智能体执行的动作，其中，所述行动者神经网络按照所述行动者神经网络的参数的值将观察映射到下一些动作，并且其中，所述系统包括：多个工作者，其中，每个工作者被配置为独立于每个其他工作者进行操作，其中，每个工作者与在训练所述行动者神经网络期间与所述环境的相应副本交互的相应智能体副本关联。
搜索关键词：	神经网络智能体副本观察计算机存储介质计算机程序高效强化环境交互连续空间连续控制强化学习映射关联响应配置学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于训练行动者神经网络的系统，所述行动者神经网络用于选择要由通过接收表征环境的状态的观察并且响应于每个观察执行从可能的动作的连续空间选择的动作而与所述环境交互的智能体执行的动作，其中，所述行动者神经网络按照所述行动者神经网络的参数的值将观察映射到下一些动作，并且其中，所述系统包括：多个工作者，其中，每个工作者被配置为独立于每个其他工作者进行操作，其中，每个工作者与在训练所述行动者神经网络期间和所述环境的相应副本交互的相应智能体副本关联，并且，其中，每个工作者还被配置为重复地执行操作，所述操作包括：从能够由所述多个工作者中的每一个访问的共享存储器确定所述行动者神经网络和评价神经网络的参数的当前值；从回放存储器获得经验元组的小批次，每个经验元组包括表征所述环境的训练状态的训练观察、来自响应于所述训练观察由所述智能体副本之一执行的动作的连续空间的训练动作、由用于执行所述训练动作的智能体副本接收的训练反馈值和表征所述环境的下一训练状态的下一训练观察；确定所述行动者神经网络的参数的当前值和所述评价神经网络的参数的当前值的更新，包括对于所述小批次中的每个经验元组：使用所述评价神经网络处理所述经验元组中的所述训练观察和所述训练动作以按照所述评价神经网络的参数的当前值确定对于所述经验元组的神经网络输出，从所述经验元组中的所述训练反馈值和所述经验元组中的所述下一训练观察确定对于所述经验元组的目标神经网络输出，使用对于所述小批次中的经验元组的所述神经网络输出和目标神经网络输出之间的误差确定所述评价神经网络的参数的当前值的更新，以及使用所述评价神经网络确定所述行动者神经网络的参数的当前值的更新；以及将所述行动者神经网络的参数的当前值的更新和所述评价神经网络的参数的当前值的更新写入到所述共享存储器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201880014744.5/，转载请声明来源钻瓜专利网。

上一篇：用于提供深度堆叠的自动程序合成的系统和方法
下一篇：记忆增强的生成时间模型

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于连续控制任务的数据高效强化学习在审

专利文献下载