[发明专利]样本高效的强化学习在审
| 申请号: | 201980032627.6 | 申请日: | 2019-05-20 |
| 公开(公告)号: | CN112119404A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 达尼亚尔·哈夫纳;雅各布·巴克曼;宏拉克·李;尤金·布雷夫多;乔治·杰伊·塔克 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/08;G06N3/04 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 高效 强化 学习 | ||
用于样本高效的强化学习的方法、系统和装置,包括在计算机存储介质上的编码的计算机程序。这些方法中的一种包括:维护Q网络的集合、转变模型的集合和奖励模型的集合;获得转变;使用转变模型的集合来生成M个轨迹;对于所述轨迹中的每个轨迹中的每个时间步:使用所述奖励模型的集合来针对所述时间步生成N个奖励,使用所述Q网络的集合来针对所述时间步生成L个Q值,并且根据所述奖励、Q值和训练奖励,针对所述轨迹并针对所述时间步确定L*N个候选目标Q值;对于所述时间步中的每个时间步,组合所述候选目标Q值;确定最终目标Q值;以及使用所述最终目标Q值来训练所述集合中的Q网络的至少一个。
背景技术
本申请涉及强化学习,尤其涉及用于与现实环境交互的代理的强化学习。
在强化学习系统中,代理通过执行动作来与环境交互,所述动作是由所述强化学习系统响应于接收到用于表征所述环境当前状态的观察结果而选择的。
一些强化学习系统根据神经网络的输出响应于接收到给定的观察结果来选择将由所述代理执行的动作。
神经网络是机器学习模型,其采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络是深度神经网络,除了输出层外,其还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层——即,下一个隐藏层或输出层——的输入。所述网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。
发明内容
本申请一般地描述一种用于训练Q神经网络的强化学习系统。在一些情况下,所述Q神经网络用于训练策略神经网络,该策略神经网络然后用于通过强化学习代理(例如机器人或其它机械代理)与物理真实世界环境交互来选择要执行的动作。在其它情况下,Q神经网络直接用于通过强化学习代理与环境交互来选择要执行的动作。
在训练期间,所述系统维护Q网络的集合(ensemble),每个Q网络是神经网络,其被配置成:接收Q网络输入,所述Q网络输入包括(i)用于表征由代理与之交互的环境的状态的输入观察结果、和(ii)用于从动作集中标识一个动作的数据,并且处理该Q网络输入以针对输入观察结果-动作对生成Q值。
所述系统也维护转变模型的集合,每个转变模型被配置成:接收转变输入,所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于所述输入观察结果而执行的动作,并且处理该转变输入以生成预测下一个观察结果,所述预测下一个观察结果用于表征作为所述代理响应于所述观察结果而执行动作的结果而由所述环境所转变成的状态。
所述系统也维护奖励模型的集合,每个奖励模型被配置成:接收奖励输入,所述奖励输入包括(i)输入观察结果、(ii)由代理响应于输入观察结果而执行的动作、和(iii)表征作为所述代理响应于观察结果而执行动作的结果而由所述环境所转变成的状态的下一个观察结果,并且处理该奖励输入以生成由所述代理响应于执行动作而接收到的预测奖励。
所述系统然后使用Q网络、转变模型和奖励模型的集合来针对转变生成目标Q值,然后使用那些目标Q值来训练Q网络的集合。特别地,所述系统从单个转变生成多个不同的轨迹,然后从所述多个轨迹内的多个不同的时间步时起在目标Q值之间内插以针对所述转变确定最终目标Q值。
可以实施本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980032627.6/2.html,转载请声明来源钻瓜专利网。





