[发明专利]强化学习网络的训练方法、装置、训练设备及存储介质有效

申请号：	201810892642.5	申请日：	2018-08-07
公开（公告）号：	CN109242099B	公开（公告）日：	2020-11-10
发明（设计）人：	王峥;梁明兰	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	深圳智趣知识产权代理事务所(普通合伙) 44486	代理人：	邵萌
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习网络训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种强化学习网络的训练方法，其特征在于，所述方法包括下述步骤：

当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；其中，所述动作库分为动作内存模块和实时动作内存模块，动作内存模块用于存储所有动作的信息，具体有动作维数n、每个动作维数的步长值、最大值和起始值，实时动作内存模块用于存储即将输出的动作信息，具体为n维动作中每个动作的动作值；

根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行，以使所述强化学习网络进入下一状态，获取所述下一状态的最大Q值，并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式，获取所述当前状态的目标Q值；

根据所述当前状态的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

2.如权利要求1所述的方法，其特征在于，在预先构建的状态奖励库中对强化学习网络的当前状态进行匹配的步骤，包括：

将所述当前状态与所述状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配；

当所述当前状态位于所述预设数量个奖励组中预设状态节点中时，将所述预设状态奖励组的奖励值设置为所述当前状态的奖励值，否则将所述当前状态的奖励值设置为预设一般状态奖励值。

3.如权利要求1所述的方法，其特征在于，在预先构建的动作库中遍历所述动作库的动作组合的步骤，包括：

将所述动作库中预设动作列表上的预设数量维动作的起始值，依次设置为所述动作库中预设实时动作表上的预设数量个实时动作值；

获取所述预设动作列表上的预设第一维动作的步长值，并将所述预设第一维动作的步长值逐次累加到所述预设第一维动作对应的所述实时动作值；

当所述对应的所述实时动作值逐次累加到所述预设第一维动作对应的范围之外时，获取所述预设动作列表上的预设第二维动作的步长值，并将所述预设第二维动作的步长值逐次累加到所述预设第二维动作对应的所述实时动作值。

4.如权利要求1所述的方法，其特征在于，获取所述当前状态的目标Q值的步骤之后，所述方法还包括：

将所述当前状态、所述当前动作、所述当前状态的奖励值和所述下一状态作为训练样本进行存储。

5.一种强化学习网络的训练装置，其特征在于，所述装置包括：

参数设置单元，用于当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

匹配获取单元，用于获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

遍历获取单元，用于在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；其中，所述动作库分为动作内存模块和实时动作内存模块，动作内存模块用于存储所有动作的信息，具体有动作维数n、每个动作维数的步长值、最大值和起始值，实时动作内存模块用于存储即将输出的动作信息，具体为n维动作中每个动作的动作值；

执行获取单元，用于根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行，以使所述强化学习网络进入下一状态，获取所述下一状态的最大Q值，并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式，获取所述当前状态的目标Q值；以及

生成调整单元，用于根据所述强化学习网络的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述强化学习网络的网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院，未经中国科学院深圳先进技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810892642.5/1.html，转载请声明来源钻瓜专利网。

上一篇：图像分类显示方法和装置、分析仪器和存储介质
下一篇：一种压敏自生热植物微生物炙疗用热敷贴及其制造方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]强化学习网络的训练方法、装置、训练设备及存储介质有效

专利文献下载