[发明专利]一种强化学习方法及计算机可读存储介质在审
| 申请号: | 202010769098.2 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111950703A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 袁春;朱新瑞;李思楠 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 强化 学习方法 计算机 可读 存储 介质 | ||
1.一种强化学习方法,其特征在于,包括如下步骤:
S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;
S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;
S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;
S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖;
S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;
S6:所述智能体决策网络收到所述经验元祖并进行训练;
S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
2.如权利要求1所述的强化学习方法,其特征在于,所述重要度计算模块采用信心上限值方法进行重要度计算。
3.如权利要求2所述的强化学习方法,其特征在于,采用如下公式进行重要度计算:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
其中,δ是时间差误差,λ是一个随时间线性增长的超参数,表示智能体模型当前学习能力的估计,SP函数根据学习能力和时间差误差的差距来确定当前的重要度,cn是被探索的次数,η是加权平均和的均衡权重系数。
4.如权利要求3所述的强化学习方法,其特征在于,不同使用场景中,SP函数和CP函数具体形式不同。
5.如权利要求4所述的强化学习方法,其特征在于,所述概率选取模块依数值概率采样的算法,利用将每个样本的概率数值映射到0-1的数轴上的方法进行;对于存在的N个样本,第i个样本的数值为Vi,则第i个样本被采样的概率为:
将该式的分子改为一个前缀和相减的形式:
随机出一个[0,1]中的随机小数p,寻找被选择的样本i满足:
在所有样本数值都大于0的前提下,对于任意小数,有且仅有一个样本满足上式条件,并最终被选择。
6.如权利要求5所述的强化学习方法,其特征在于,所述概率选取模块采用线段树方法提高采用效率;
所述概率选取模块根据所述重要度修改对应线段树上的节点的权值。
7.如权利要求6所述的强化学习方法,其特征在于,增加经验权重进行回放的方法,采用等比例不等概率进行经验采样。
8.如权利要求7所述的强化学习方法,其特征在于,采用伸展树对于所述概率选取模块的概率选取方法进行优化。
9.如权利要求7所述的强化学习方法,其特征在于,所述状态激励模块基于PixelCNN的路径期望探索值估计方法,利用CNN结构,输入一个状态值,最后输出一个预期的探索次数的对数值,记为PGn(x),则该状态x的额外奖励为:
其中,PGn(x)表示的是网络输出的第x个经验预计需要访问次数,形成了激励奖励计算的中间量,r+(x)是激励奖励值。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010769098.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:整极磁极的通用封装结构及封装方法
- 下一篇:柔性显示面板及制作方法、电子设备





