[发明专利]一种强化学习方法及计算机可读存储介质在审
| 申请号: | 202010769098.2 | 申请日: | 2020-08-03 | 
| 公开(公告)号: | CN111950703A | 公开(公告)日: | 2020-11-17 | 
| 发明(设计)人: | 袁春;朱新瑞;李思楠 | 申请(专利权)人: | 清华大学深圳国际研究生院 | 
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 | 
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 | 
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 强化 学习方法 计算机 可读 存储 介质 | ||
本发明提供一种强化学习方法及计算机可读存储介质,方法包括:智能体决策网络接收任务环境给出的当前状态t并决策出动作t发送给任务环境;智能体决策网络接收反馈回的奖励t和状态t+1;智能体决策网络将第一经验元祖传给经验存储池,经验存储池将状态t提供给状态激励模块,状态激励模块返回一个激励奖励t;经验存储池提供新的位置存储第二经验元祖,重要度计算模块将当前所有经验的重要度最大值作为第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给经验存储池,经验存储池将对应经验元组传回给智能体决策网络;智能体决策网络训练结束后将对应时间差误差计算返给经验存储池;重复这个过程。
技术领域
本发明涉及强化学习技术领域,尤其涉及一种强化学习方法及计算机可读存储介质。
背景技术
在强化学习过程中,对于数据的存储,以及训练时如何进行数据选取,是深度强化学习中最重要的工作之一。
现有技术中,最常见通用的方法是对于已有数据进行等概率选取,然而这种方法对于数据本身信息的利用效率不足,传统的经验回放中的等概率选取方案,在噪声较大,或者无用尝试较多时,会使得重要的经验被选取进行训练的概率偏低,降低智能体的学习效率。
现有技术中,在解决利用效率不足的情况时,时间复杂度较高。
现有技术中,缺乏一种时间复杂度低的情况下提高数据利用率的强化学习方法。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种强化学习方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种强化学习方法,包括如下步骤:S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖,S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;S6:所述智能体决策网络收到所述经验元祖并进行训练;S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
优选地,所述重要度计算模块采用信心上限值方法进行重要度计算。
优选地,采用如下公式进行重要度计算:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010769098.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:整极磁极的通用封装结构及封装方法
- 下一篇:柔性显示面板及制作方法、电子设备





