[发明专利]强化学习网络的训练方法、装置、训练设备及存储介质有效
申请号: | 201810892642.5 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109242099B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 王峥;梁明兰 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 深圳智趣知识产权代理事务所(普通合伙) 44486 | 代理人: | 邵萌 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 网络 训练 方法 装置 设备 存储 介质 | ||
1.一种强化学习网络的训练方法,其特征在于,所述方法包括下述步骤:
当接收到训练强化学习网络的请求时,设置所述强化学习网络的网络参数,以对所述强化学习网络进行权重配置;
获取所述强化学习网络的当前状态,在预先构建的状态奖励库中对所述当前状态进行匹配,获取所述当前状态的奖励值和贡献值;
在预先构建的动作库中遍历所述动作库的动作组合,获取所述动作组合的贡献值,并根据所述当前状态的贡献值和所述动作组合的贡献值,获取所述强化学习网络的当前状态的最大Q值;其中,所述动作库分为动作内存模块和实时动作内存模块,动作内存模块用于存储所有动作的信息,具体有动作维数n、每个动作维数的步长值、最大值和起始值,实时动作内存模块用于存储即将输出的动作信息,具体为n维动作中每个动作的动作值;
根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行,以使所述强化学习网络进入下一状态,获取所述下一状态的最大Q值,并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式,获取所述当前状态的目标Q值;
根据所述当前状态的目标Q值生成所述强化学习网络的损失函数,通过预设调整算法调整所述网络参数,以继续对所述强化学习网络进行训练,直到所述损失函数收敛。
2.如权利要求1所述的方法,其特征在于,在预先构建的状态奖励库中对强化学习网络的当前状态进行匹配的步骤,包括:
将所述当前状态与所述状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配;
当所述当前状态位于所述预设数量个奖励组中预设状态节点中时,将所述预设状态奖励组的奖励值设置为所述当前状态的奖励值,否则将所述当前状态的奖励值设置为预设一般状态奖励值。
3.如权利要求1所述的方法,其特征在于,在预先构建的动作库中遍历所述动作库的动作组合的步骤,包括:
将所述动作库中预设动作列表上的预设数量维动作的起始值,依次设置为所述动作库中预设实时动作表上的预设数量个实时动作值;
获取所述预设动作列表上的预设第一维动作的步长值,并将所述预设第一维动作的步长值逐次累加到所述预设第一维动作对应的所述实时动作值;
当所述对应的所述实时动作值逐次累加到所述预设第一维动作对应的范围之外时,获取所述预设动作列表上的预设第二维动作的步长值,并将所述预设第二维动作的步长值逐次累加到所述预设第二维动作对应的所述实时动作值。
4.如权利要求1所述的方法,其特征在于,获取所述当前状态的目标Q值的步骤之后,所述方法还包括:
将所述当前状态、所述当前动作、所述当前状态的奖励值和所述下一状态作为训练样本进行存储。
5.一种强化学习网络的训练装置,其特征在于,所述装置包括:
参数设置单元,用于当接收到训练强化学习网络的请求时,设置所述强化学习网络的网络参数,以对所述强化学习网络进行权重配置;
匹配获取单元,用于获取所述强化学习网络的当前状态,在预先构建的状态奖励库中对所述当前状态进行匹配,获取所述当前状态的奖励值和贡献值;
遍历获取单元,用于在预先构建的动作库中遍历所述动作库的动作组合,获取所述动作组合的贡献值,并根据所述当前状态的贡献值和所述动作组合的贡献值,获取所述强化学习网络的当前状态的最大Q值;其中,所述动作库分为动作内存模块和实时动作内存模块,动作内存模块用于存储所有动作的信息,具体有动作维数n、每个动作维数的步长值、最大值和起始值,实时动作内存模块用于存储即将输出的动作信息,具体为n维动作中每个动作的动作值;
执行获取单元,用于根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行,以使所述强化学习网络进入下一状态,获取所述下一状态的最大Q值,并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式,获取所述当前状态的目标Q值;以及
生成调整单元,用于根据所述强化学习网络的目标Q值生成所述强化学习网络的损失函数,通过预设调整算法调整所述强化学习网络的网络参数,以继续对所述强化学习网络进行训练,直到所述损失函数收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810892642.5/1.html,转载请声明来源钻瓜专利网。