[发明专利]一种强化学习方法及计算机可读存储介质在审
| 申请号: | 202010769098.2 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111950703A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 袁春;朱新瑞;李思楠 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供一种强化学习方法及计算机可读存储介质,方法包括:智能体决策网络接收任务环境给出的当前状态t并决策出动作t发送给任务环境;智能体决策网络接收反馈回的奖励t和状态t+1;智能体决策网络将第一经验元祖传给经验存储池,经验存储池将状态t提供给状态激励模块,状态激励模块返回一个激励奖励t;经验存储池提供新的位置存储第二经验元祖,重要度计算模块将当前所有经验的重要度最大值作为第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给经验存储池,经验存储池将对应经验元组传回给智能体决策网络;智能体决策网络训练结束后将对应时间差误差计算返给经验存储池;重复这个过程。 | ||
| 搜索关键词: | 一种 强化 学习方法 计算机 可读 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010769098.2/,转载请声明来源钻瓜专利网。
- 上一篇:整极磁极的通用封装结构及封装方法
- 下一篇:柔性显示面板及制作方法、电子设备





