[发明专利]使用管理者和工作者神经网络的用于强化学习的动作选择有效

申请号：	201880013632.8	申请日：	2018-02-19
公开（公告）号：	CN110546653B	公开（公告）日：	2023-06-20
发明（设计）人：	S.奥新德罗;K.卡夫库格鲁;A.维兹尼韦茨	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06V10/82	分类号：	G06V10/82;G06V40/20;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/084;G06N3/092
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用管理者工作者神经网络用于强化学习动作选择
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

公开了方法、系统、和装置，包括在计算机存储介质上编码的计算机程序，用于被配置为选择要由与环境交互的代理执行的动作的系统。系统包括管理者神经网络子系统和工作者神经网络子系统。管理者子系统被配置为在多个时间步中的每一个时间步处生成时间步的最终目标向量。工作者子系统被配置为在多个时间步中的每一个时间步处，使用由管理者子系统生成的最终目标向量来为预定动作集中的每个动作生成相应的动作得分。

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中，代理(agent)通过响应于接收到表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出来选择由代理响应于接收到给定观察而要执行的动作。

神经网络是采用一个或多个非线性单元层来预测对接收输入的输出的机器学习模型。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值根据接收的输入生成输出。

发明内容

本说明书总体上描述了一种动作选择系统，其选择要由与环境交互的强化学习代理执行的动作。

在第一方面，提供了一种动作选择系统，用于选择要由代理执行的动作，其中代理通过执行来自预定的动作集的动作来与环境交互，系统包括：管理者神经网络子系统，被配置为，在多个时间步中的每一个时间步处：接收环境在时间步处的当前状态的中间表示，将中间表示映射到潜在状态空间中的当前状态的潜在表示，使用目标循环(recurrent)神经网络处理潜在表示，其中目标循环神经网络被配置为接收潜在表示并根据目标循环神经网络的当前隐藏状态处理潜在表示，以生成所述时间步的目标空间中的初始目标向量并更新目标循环神经网络的内部状态，以及池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量，以生成所述时间步的最终目标向量；工作者神经网络子系统，其被配置为在多个时间步中的每一个时间步处：接收环境在时间步处的当前状态的中间表示，将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量，将时间步的最终目标向量从目标空间投影到嵌入空间以生成目标嵌入向量，并通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分；以及动作选择子系统，其中动作选择子系统被配置为，在多个时间步中的每一个时间步处：接收表征环境在时间步处的当前状态的观察，从观察生成中间表示，提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量，提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分，并使用动作得分从预定的动作集中选择要由代理响应于观察执行的动作。

在一些实施方式中，选择动作包括选择具有最高动作得分的动作。

在一些实施方式中，从观察中生成中间表示包括使用卷积神经网络处理观察。

在一些实施方式中，，将中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括：使用动作得分循环神经网络处理中间表示，其中动作得分循环神经网络被配置为接收中间表示并根据动作得分循环神经网络的当前隐藏状态处理中间表示，以生成动作嵌入向量并更新动作得分神经网络的隐藏状态。

在一些实施方式中，将中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理中间表示。

在一些实施方式中，目标空间比嵌入空间具有更高的维度。

在一些实施方式中，目标空间的维度比嵌入空间的维度高至少十倍。

在一些实施方式中，工作者神经网络子系统已经被训练为生成最大化奖励的时间折扣组合的动作得分，其中每个奖励是作为代理执行所选动作的结果而接收的外部奖励与取决于管理者神经网络子系统生成的目标向量的内在奖励的组合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201880013632.8/2.html，转载请声明来源钻瓜专利网。