[发明专利]用于连续控制任务的数据高效强化学习在审
申请号: | 201880014744.5 | 申请日: | 2018-01-31 |
公开(公告)号: | CN110383298A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | M.里德米勒;R.哈夫纳;M.维切里克;T.P.利利克拉普;T.兰珀;I.波波夫;G.巴斯-马龙;N.M.O.希斯 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 用于数据高效的强化学习的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述系统之一是一种用于训练行动者神经网络的系统,所述行动者神经网络用于选择要由通过接收表征环境的状态的观察并且响应于每个观察执行从可能的动作的连续空间选择的动作而与所述环境交互的智能体执行的动作,其中,所述行动者神经网络按照所述行动者神经网络的参数的值将观察映射到下一些动作,并且其中,所述系统包括:多个工作者,其中,每个工作者被配置为独立于每个其他工作者进行操作,其中,每个工作者与在训练所述行动者神经网络期间与所述环境的相应副本交互的相应智能体副本关联。 | ||
搜索关键词: | 神经网络 智能体 副本 观察 计算机存储介质 计算机程序 高效强化 环境交互 连续空间 连续控制 强化学习 映射 关联 响应 配置 学习 | ||
【主权项】:
1.一种用于训练行动者神经网络的系统,所述行动者神经网络用于选择要由通过接收表征环境的状态的观察并且响应于每个观察执行从可能的动作的连续空间选择的动作而与所述环境交互的智能体执行的动作,其中,所述行动者神经网络按照所述行动者神经网络的参数的值将观察映射到下一些动作,并且其中,所述系统包括:多个工作者,其中,每个工作者被配置为独立于每个其他工作者进行操作,其中,每个工作者与在训练所述行动者神经网络期间和所述环境的相应副本交互的相应智能体副本关联,并且,其中,每个工作者还被配置为重复地执行操作,所述操作包括:从能够由所述多个工作者中的每一个访问的共享存储器确定所述行动者神经网络和评价神经网络的参数的当前值;从回放存储器获得经验元组的小批次,每个经验元组包括表征所述环境的训练状态的训练观察、来自响应于所述训练观察由所述智能体副本之一执行的动作的连续空间的训练动作、由用于执行所述训练动作的智能体副本接收的训练反馈值和表征所述环境的下一训练状态的下一训练观察;确定所述行动者神经网络的参数的当前值和所述评价神经网络的参数的当前值的更新,包括对于所述小批次中的每个经验元组:使用所述评价神经网络处理所述经验元组中的所述训练观察和所述训练动作以按照所述评价神经网络的参数的当前值确定对于所述经验元组的神经网络输出,从所述经验元组中的所述训练反馈值和所述经验元组中的所述下一训练观察确定对于所述经验元组的目标神经网络输出,使用对于所述小批次中的经验元组的所述神经网络输出和目标神经网络输出之间的误差确定所述评价神经网络的参数的当前值的更新,以及使用所述评价神经网络确定所述行动者神经网络的参数的当前值的更新;以及将所述行动者神经网络的参数的当前值的更新和所述评价神经网络的参数的当前值的更新写入到所述共享存储器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880014744.5/,转载请声明来源钻瓜专利网。
- 上一篇:用于提供深度堆叠的自动程序合成的系统和方法
- 下一篇:记忆增强的生成时间模型