[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

申请号：	201680009087.6	申请日：	2016-02-05
公开（公告）号：	CN107209872B	公开（公告）日：	2021-05-11
发明（设计）人：	普拉温·迪帕克·斯里尼瓦桑;罗里·费伦;恰达什·阿尔奇切克;阿伦·萨拉·奈尔;塞缪尔·布莱克威尔;维达维亚斯·潘尼尔谢尔万;亚历山德罗·德玛丽亚;沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢;大卫·西尔韦;穆斯塔法·苏莱曼	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;穆德骏
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于训练强化学习系统方法存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于分布式训练强化学习系统。一种方法包括由学习器从参数服务器接收Q网络的参数的当前值，其中，每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本；通过学习器，使用当前值，更新由学习器保持的学习器Q网络副本的参数；由学习器从相应的回放存储器选择经验元组；由学习器，使用由学习器保持的学习器Q网络副本和由学习器保持的目标Q网络副本，通过经验元组计算梯度，并且通过学习器，将计算的梯度提供给参数服务器。

技术领域

本说明书涉及训练强化学习系统。

背景技术

强化学习代理通过接收对环境的当前状态特征化的观察，并且作为响应，执行来自预定动作集的动作，而与环境交互。根据价值函数的输出，强化学习代理通常响应于执行动作接收回报，并且响应接收给定观察，选择待执行的动作。一些强化学习代理使用神经网络代替价值函数，例如通过使用神经网络处理观察并且基于神经网络的输出选择动作，来近似价值函数的输出。

神经网络是采用非线性单元的一层或多层来预测接收的输入的输出的机器学习模型。一些神经网络是除输出层外，还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中的下一层的输入，即，下一隐藏层或输出层。网络的每个层根据相应参数集的当前值，通过接收的输入生成输出。

发明内容

本说明书描述涉及训练强化学习系统的技术。

对待被配置成执行特定操作或动作的一个或多个计算机的系统，是指该系统在其上已经安装了在操作中使该系统实现操作或动作的软件、固件、硬件或它们的组合。对待被配置成执行特定操作或动作的一个或多个计算机程序是指一个或多个程序包括当由数据处理装置执行时，使装置执行操作或动作的指令。

能在特定实施例中实现本说明书中所述的主题以便实现一个或多个下述优点。通过并行化训练，能更快地训练强化学习系统。此外，使用在本说明书中所述的分布式学习技术训练的强化学习系统能在训练后，与使用非分布式强化学习训练技术训练的相同的强化学习系统相比，在强化学习任务上具有提高的性能。通过提供允许分布式强化学习训练系统包括任意数目学习器、行动器和回放存储器的架构，能易于将该系统适用于训练执行各种强化学习任务的系统。此外，在训练期间，能容易调整学习器、行动器，以及可选地，回放存储器的数目，导致提高性能。

在附图和下述描述中，阐述本说明书的主题的一个或多个实施例的细节。从描述、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出示例分布式强化学习训练系统。

图2示出另一示例分布式强化学习训练系统。

图3是在训练强化学习系统期间生成经验元组的示例过程的流程图。

图4是在训练强化学习系统期间计算梯度的示例过程的流程图。

图5是在训练强化学习系统期间更新参数值的示例过程的流程图。

不同图中相同的参考数字和名称指示相同的元件。

具体实施方式

本说明书通常描述用于分布式训练强化学习系统的技术。特别地，所训练的强化学习系统包括与环境交互的代理。为了与环境交互，代理接收对环境的当前状态进行特征化的观察并且使用该观察，选择待执行的动作。响应于执行所选动作，代理接收回报。当与环境交互时，响应于由代理选择的所有动作，代理尝试最大化由代理接收的总回报。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201680009087.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

专利文献下载