[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

申请号：	201680009087.6	申请日：	2016-02-05
公开（公告）号：	CN107209872B	公开（公告）日：	2021-05-11
发明（设计）人：	普拉温·迪帕克·斯里尼瓦桑;罗里·费伦;恰达什·阿尔奇切克;阿伦·萨拉·奈尔;塞缪尔·布莱克威尔;维达维亚斯·潘尼尔谢尔万;亚历山德罗·德玛丽亚;沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢;大卫·西尔韦;穆斯塔法·苏莱曼	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;穆德骏
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于训练强化学习系统方法存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于训练强化学习系统的系统，所述强化学习系统包括代理，所述代理通过接收对环境的当前状态进行特征化的观察以及从预定动作集选择待执行的动作，来与所述环境交互，其中，所述代理使用Q网络选择待执行的动作，其中，所述Q网络是深度神经网络，所述深度神经网络被配置成将观察和动作接收为输入并且根据参数集，从所述输入生成神经网络输出，其中，训练所述强化学习系统包括调整所述Q网络的所述参数集的值，以及其中，所述系统包括：

多个学习器，其中，每个学习器在相应的计算单元上执行，其中，每个学习器被配置成独立于每个其他学习器操作，其中，所述每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本，以及其中，每个学习器被进一步配置成重复地执行包括下述的操作：

从参数服务器接收所述Q网络的所述参数的当前值；

使用所述当前值，更新由所述学习器保持的所述学习器Q网络副本的所述参数；

从相应的回放存储器选择经验元组；

使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本，根据所述经验元组计算梯度；以及

将计算的梯度提供给所述参数服务器；

其中，所述学习器Q网络副本的参数比所述目标Q网络副本的参数被更频繁地更新；

所述系统进一步包括多个行动器，其中，每个行动器在相应的计算单元上执行，其中，每个行动器被配置成独立于每个其他行动器操作，其中，每个行动器与所述环境的相应的副本交互，其中，每个行动器保持相应的行动器Q网络副本，以及其中，每个行动器被进一步配置成重复地执行包括下述的操作：

从所述参数服务器接收所述Q网络的所述参数的当前值；

使用所述当前值，更新由所述行动器保持的所述行动器Q网络副本的所述参数值；

接收对与所述行动器交互的环境副本的当前状态进行特征化的当前观察；

使用由所述行动器保持的所述行动器Q网络副本，来选择响应于所述当前观察而执行的动作；

响应于被执行的动作和对与所述行动器交互的所述环境副本的下一状态进行特征化的下一观察，接收回报；

生成经验元组，所述经验元组包括所述当前观察、所选择的动作、所述回报和所述下一观察；以及

将所述经验元组存储在相应的回放存储器中。

2.如权利要求1所述的系统，进一步包括：

所述参数服务器，其中，所述参数服务器被配置成重复地执行包括下述的操作：

从所述多个学习器接收一系列梯度；

使用所述梯度，计算对所述Q网络的所述参数值的更新；

使用所计算的更新，来更新所述Q网络的所述参数值；以及

将经更新的参数值提供给所述行动器和所述多个学习器；

其中，所述参数服务器被进一步配置成跟踪由计算梯度的学习器使用的参数的值与由所述参数服务器保持的参数的值之间的时间延迟，并且丢弃所述延迟大于阈值的所有梯度；以及

其中，每个学习器所计算的梯度是限定损失的损失函数的梯度，其中，每个学习器被配置成保持所述损失的绝对值的运行平均和标准偏差，并且其中，所述学习器或者所述参数服务器丢弃具有高于平均值加上阈值数目的标准偏差的绝对损失的梯度。

3.如权利要求2所述的系统，其中，所述参数服务器包括多个参数服务器分片，其中，每个分片被配置成保持所述Q网络的所述参数的相应不相交分区的值，以及其中，每个分片被配置成相对于每个其他分片异步地操作。

4.如权利要求2所述的系统，其中，所述参数服务器被配置成执行的所述操作进一步包括：

确定是否满足用于更新由所述学习器保持的所述目标Q网络副本的所述参数的标准；以及

当满足所述标准时，将指示经更新的参数值将被用来更新所述目标Q网络副本的所述参数的数据提供给所述学习器。

5.如权利要求4所述的系统，其中，每个所述学习器被配置成执行的所述操作进一步包括：

接收指示经更新的参数值将被用来更新由所述学习器保持的所述目标Q网络副本的所述参数的数据；以及

使用经更新的参数值，来更新由所述学习器保持的所述目标Q网络副本的所述参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201680009087.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

专利文献下载