[发明专利]使用管理者和工作者神经网络的用于强化学习的动作选择有效
| 申请号: | 201880013632.8 | 申请日: | 2018-02-19 |
| 公开(公告)号: | CN110546653B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | S.奥新德罗;K.卡夫库格鲁;A.维兹尼韦茨 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V40/20;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/084;G06N3/092 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 管理者 工作者 神经网络 用于 强化 学习 动作 选择 | ||
1.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:
管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到潜在状态空间中当前状态的潜在表示,
使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新所述目标循环神经网络的内部状态,以及
池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;
工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:
接收环境在时间步处的当前状态的中间表示,
将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,
将时间步的最终目标向量从目标空间投影到嵌入空间以生成目标嵌入向量,以及
通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及
动作选择子系统,其中所述动作选择子系统被配置为在所述多个时间步中的每一个时间步处:
接收表征环境在时间步处的当前状态的观察,
从观察生成中间表示,
提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,
提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,以及
使用动作得分从预定的动作集中选择代理响应于观察要执行的动作。
2.如权利要求1所述的系统,其中选择动作包括选择具有最高动作得分的动作。
3.如权利要求1或2所述的系统,其中从观察生成中间表示包括使用卷积神经网络处理观察。
4.如权利要求1或2所述的系统,其中,将所述中间表示映射到所述预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量包括:
使用动作得分循环神经网络处理所述中间表示,其中所述动作得分循环神经网络被配置为接收所述中间表示并根据动作得分循环神经网络的当前隐藏状态处理所述中间表示以生成动作嵌入向量以及更新动作得分神经网络的隐藏状态。
5.如权利要求1或2所述的系统,其中将所述中间表示映射到当前状态的潜在表示包括使用前馈神经网络处理所述中间表示。
6.如权利要求1或2所述的系统,其中,所述目标空间具有比所述嵌入空间更高的维度。
7.如权利要求6所述的系统,其中,所述目标空间的维度比所述嵌入空间的维度高至少十倍。
8.如权利要求1或2所述的系统,其中,所述工作者神经网络子系统已被训练以生成最大化奖励的时间折扣的组合的动作得分,其中每个奖励是作为所述代理执行所选动作的结果而接收的外部奖励和依赖于由管理者神经网络子系统生成的目标向量的内在奖励的组合。
9.如权利要求8所述的系统,其中所述管理者神经网络子系统已被训练以生成引起鼓励选择在潜在状态空间中的有利方向上移动代理的动作的动作得分的初始目标向量。
10.如权利要求1或2所述的系统,其中所述目标循环神经网络是扩张的长短期记忆LSTM神经网络,其中所述扩张的LSTM神经网络被配置为维持被划分为r个子状态的内部状态,其中r是大于1的整数,并且其中所述扩张的LSTM神经网络被配置为在所述多个时间步中的每个时间步处:
接收所述时间步的网络输入;
从r个子状态中选择子状态;以及
使用LSTM神经网络处理所选子状态的当前值和所述时间步的网络输入,以更新所选子状态的当前值以及根据LSTM网络参数集的当前值生成所述时间步的网络输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880013632.8/1.html,转载请声明来源钻瓜专利网。





