[发明专利]多任务强化学习中利用元梯度学习动作选择的选项在审

申请号：	202180026583.3	申请日：	2021-06-07
公开（公告）号：	CN115380293A	公开（公告）日：	2022-11-22
发明（设计）人：	V.V.杰亚维莱亚;T.B.Z.扎哈维;M.赫塞尔;Z.徐;J.吴;I.凯梅夫;H.P.范哈塞尔特;D.西尔沃;S.S.巴韦加	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	任务强化学习利用梯度动作选择选项
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种用于控制代理在与环境交互的同时执行多个任务的强化学习系统、方法和计算机程序代码。该系统学习选项，其中选项包括由代理在选项策略神经网络的控制下执行的原始动作序列。在实现中，在代理与环境交互的同时，系统通过用于训练选项策略神经网络的元学习奖励来发现对多个不同任务有用的选项。

对相关申请的交叉引用

本申请要求于2020年6月5日提交的第63/035,467号美国临时申请的优先权。该在先申请的公开内容被认为是本申请公开内容的一部分，并通过引用被合并于此。

背景技术

本说明书涉及强化学习。

在强化学习系统中，代理通过执行由强化学习系统响应于接收表征环境当前状态的观察而选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出，响应于接收到给定的观察来选择将由代理执行的动作。

神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络是深度神经网络，除了输出层之外，还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一个层，即下一个隐藏层或输出层，的输入。网络的每一层根据相应参数集合的当前值从接收的输入生成输出。

发明内容

本说明书总体上描述了一种用于控制代理在与环境交互的同时执行多个任务的强化学习系统。该系统学习选项，其中选项包括由代理在选项策略神经网络的控制下执行的原始动作(primitive action)的序列。原始动作是由代理在时间步长执行的动作。在实现中，该系统通过元学习，更具体地说，通过在代理与环境交互的同时学习用于训练选项策略神经网络的奖励，来发现对多个不同任务有用的选项。

因此，在一个方面中，描述了一种用于控制代理在与环境交互的同时执行多个任务的系统。该系统被配置为在多个时间步长的每一个处理包括表征环境的当前状态的观察的输入，以生成用于选择将由代理执行的动作的输出，该动作例如是预定的可能动作集合中的一个。任务奖励响应于动作被接收；对于一些或许多时间步长，任务奖励可以为零。

系统可以包括管理器神经网络和选项策略神经网络集合，每个选项策略神经网络用于根据相应的选项策略来选择将由代理执行的动作序列。管理器神经网络可以被配置为在时间步长，例如在它需要挑选选项或原始动作的每个时间步长，根据管理器神经网络的参数值，处理观察和标识代理当前正在执行的任务中的一个——例如任务嵌入——的数据，以生成用于从管理器动作集合中选择管理器动作的输出。管理器动作集合可以包括能够由代理执行的可能(原始)动作，例如预定的可能动作集合中的每个动作。管理器动作集合可以包括选项选择动作的集合，每个选项选择动作选择选项策略神经网络中的一个。

每个选项策略神经网络可以被配置为在一系列时间步长中的每一个(例如，选项被选择时的时间步长)，根据由选项策略神经网络的参数值定义的选项策略，处理时间步长的观察，以生成用于选择将由代理执行的动作——即原始动作——的输出。当所选择的管理器动作是选项选择动作时，由管理器动作选择的选项策略神经网络在接连的时间步长生成其输出，直到满足选项终止准则为止。当所选择的管理器动作是能够由代理执行的可能(原始)动作中的一个时，用于选择动作的输出是所选择的管理器动作。

系统可以包括选项奖励神经网络集合，每个选项奖励神经网络用于每个相应的选项策略神经网络。每个选项奖励神经网络可以被配置为根据选项奖励神经网络的参数值在时间步长处理观察，以生成相应选项策略神经网络的选项奖励。选项奖励可以在相应选项被选择的每个时间步长被生成。

在实现中，系统被配置为使用任务奖励来训练选项奖励神经网络集合和管理器神经网络。系统也可以被配置为使用相应选项策略神经网络的选项奖励来训练每个选项策略神经网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202180026583.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多任务强化学习中利用元梯度学习动作选择的选项在审

专利文献下载