[发明专利]训练动作选择神经网络在审
| 申请号: | 201780067832.7 | 申请日: | 2017-11-03 |
| 公开(公告)号: | CN110235148A | 公开(公告)日: | 2019-09-13 |
| 发明(设计)人: | 王梓聿;尼古拉斯·曼弗雷德·奥托·黑斯;维克托雷·巴波斯特;沃洛季米尔·姆尼赫;雷米·穆尼奥斯;科拉伊·卡武克曲奥卢;若昂·费迪南多·戈梅斯·德弗雷塔斯 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
| 地址: | 英国*** | 国省代码: | 英国;GB |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 训练动作 回放 存储器 计算机存储介质 存储器存储 计算机程序 采样轨迹 策略参数 调整策略 动作选择 离线策略 强化学习 评判 代理 | ||
1.一种方法,包括:
维持回放存储器,所述回放存储器存储由于代理与环境的交互而生成的轨迹,每个轨迹包括在多个时间步中的每个时间步的相应动作选择数据,在每个时间步的所述动作选择数据识别:
(i)表征所述环境的状态的观察,
(ii)由所述代理响应于所述观察而执行的动作,
(iii)响应于所述代理执行所述动作而接收到的奖励,以及
(iv)至少在响应于所述观察而确定执行哪个动作时分配给所执行的动作的动作选择分值;以及
训练具有关于所述回放存储器中的所述轨迹的策略参数的动作选择神经网络,其中,所述动作选择神经网络被配置为:
接收表征所述环境的状态的观察;以及
处理所述观察以生成网络输出,所述网络输出定义能够由所述代理响应于所述观察而执行的可能动作上的分值分布,以及
其中,训练所述动作选择神经网络包括:
从所述回放存储器中采样轨迹;以及
通过使用离线策略行动器评判强化学习技术在所述轨迹上训练所述动作选择神经网络来调整所述策略参数的当前值。
2.根据权利要求1所述的方法,其中,能够通过所述代理响应于所述观察而执行的可能动作集合是有限的,其中,所述网络输出是所述分值分布,并且其中,使用所述离线策略行动器评判强化学习技术来调整所述策略参数的当前值包括:
对于从所述轨迹中的最后时间步到所述轨迹中的初始时间步的所述轨迹中的每个时间步:
使用所述动作选择神经网络处理所述观察以确定主分值分布;
使用评判神经网络处理所述观察以确定每个可能动作的相应Q值;以及
从所述Q值和所述主分值分布确定用于该时间步的主梯度。
3.根据权利要求2所述的方法,其中,确定所述主梯度包括:
从所述Q值和所述主分值分布确定用于所述时间步的值估计;
从所述奖励和当前回扫估计确定用于所述时间步的回扫估计;以及
使用所述主分值分布、所述Q值、所述值估计和所述回扫估计来确定所述主梯度。
4.根据权利要求3所述的方法,其中,确定所述主梯度包括:
从所述主分值分布中的用于所执行的动作的所述分值和在响应于所述观察而确定执行哪个动作时分配给所执行的动作的所述动作选择分值确定截断的重要性权重;以及
在确定所述主梯度的第一项时应用所述截断的重要性权重。
5.根据权利要求4所述的方法,其中,确定所述主梯度包括:
从所述主分值分布中的所述分值和在响应于所述观察而确定执行哪个动作时使用的动作集合中的所述动作的动作选择分值确定校正梯度项。
6.根据权利要求3-5中的任一项所述的方法,进一步包括:
从用于所执行的动作的Q值和所述回扫估计确定评判梯度;
从所述评判梯度确定所述评判神经网络的所述参数的当前值的更新;以及
更新所述回扫估计。
7.根据权利要求1所述的方法,其中,能够通过所述代理响应于所述观察而执行的可能动作被表示为连续动作空间中的点,其中,所述网络输出包括定义在所述连续动作空间中的所述点上的分值分布的分布参数,并且其中,使用离线策略行动器评判强化学习技术调整所述策略参数的当前值包括:
对于从所述轨迹中的最后时间步到所述轨迹中的初始时间步的所述轨迹中的每个时间步:
使用所述动作选择神经网络处理所述观察以定义主分值分布;
使用随机对抗神经网络处理所述观察,所述随机对抗神经网络被配置为:
处理所述观察以生成用于所执行的动作的确定性值估计和随机Q值;
从所述主分值分布采样替代动作;以及
从所述Q值、所述确定性值估计、所述随机Q值、所述主分值分布和所采样的替代动作确定用于所述时间步的主梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780067832.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于瓶的包括电子芯片的标签,以及相关的生产方法
- 下一篇:神经情节控制





