[发明专利]基于状态表示学习的深度强化学习方法及装置在审

申请号：	202010441544.7	申请日：	2020-05-22
公开（公告）号：	CN113705805A	公开（公告）日：	2021-11-26
发明（设计）人：	李厚强;周文罡;赵鉴	申请（专利权）人：	中国科学技术大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	李伟
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于状态表示学习深度强化学习方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于状态表示学习的深度强化学习方法，其特征在于，包括：

判断预设的计数器的计数结果是否大于第一阈值；

若预设的计数器的计数结果大于第一阈值，则依据当前状态、近状态、以及远状态，计算相邻状态一致性损失函数值；其中，所述当前状态为神经网络模型的作用对象当前的状态，所述近状态为通过将所述神经网络模型输出的当前状态对应的动作，作用于所述作用对象得到的所述当前状态的下一状态，所述远状态位于所述当前状态之前，且与所述当前状态之间间隔N个状态，所述N为自然数，所述N与所述第一阈值存在关联关系，所述相邻状态一致性函数值用于指示所述近状态与所述当前状态之间的差异小于所述近状态与所述远状态之间的差异；

依据所述当前状态、所述当前状态对应的动作、奖励值以及所述近状态，计算强化学习损失函数值，并依据所述相邻状态一致性损失函数值和所述强化学习损失函数值，计算联合损失函数值，其中，所述奖励值为将所述神经网络模型输出的当前状态对应的动作，作用于所述作用对象后，所述作用对象反馈的数值；

依据所述联合损失函数值，对所述神经网络模型进行训练，得到新的神经网络模型；

判断所述计数器的计数结果是否大于第二阈值；其中，所述第二阈值大于所述第一阈值；

若所述计数器的计数结果不大于第二阈值，则将所述近状态作为新的当前状态，并将所述远状态的下一状态作为新的远状态；

将所述新的神经网络模型依据所述新的当前状态输出的所述新的当前状态对应的动作，作用于所述作用环境，得到新的近状态、以及新的奖励值；

对所述计数器的计数加一；

依据所述新的当前状态、所述远状态、所述新的近状态和所述新的奖励值，返回执行依据当前状态、近状态、以及远状态，计算状态一致性损失函数值的步骤，直至所述计数器的计数结果大于所述第二阈值，将当前的神经网络模型作为目标网络模型。

2.根据权利要求1所述的方法，其特征在于，还包括：

若预设的计数器的计数结果不大于第一阈值，则依据当前状态、当前状态对应的动作、奖励值以及近状态，计算强化学习损失函数值；其中，所述当前状态为神经网络模型的作用对象当前的状态，所述近状态为通过将所述神经网络模型输出的当前状态对应的动作，作用于所述作用对象得到的所述当前状态的下一状态，所述奖励值为将所述神经网络模型输出的当前状态对应的动作，作用于所述作用对象后，所述作用对象反馈的数值；

依据所述强化学习损失函数值对所述神经网络模型进行训练，得到新的神经网络模型；

将所述近状态作为新的当前状态，并将所述新的神经网络模型依据所述新的当前状态输出的所述新的当前状态对应的动作，作用于所述作用环境，得到新的近状态、以及新的奖励值；

对所述计数器的计数加一；

依据所述新的当前状态、所述新的近状态以及所述新的奖励值，返回执行判断预设的计数器的计数结果是否大于第一阈值的步骤。

3.根据权利要求1所述的方法，其特征在于，所述依据当前状态、近状态、以及远状态，计算相邻状态一致性损失函数值，包括：

依据当前状态、近状态、以及远状态，通过相邻状态一致性损失函数，计算相邻状态一致性损失函数值；

所述相邻状态一致性损失函数为：

L_ASC＝max(d(S_t+1,S_t))-d(S_t+1,S_t-α)+γ,0)

其中，L_ASC为相邻状态一致性损失函数值，S_t为当前状态，S_t+1为近状态，S_t-α为远状态，d(S_t+1,S_t)为近状态与当前状态之间的距离，d(S_t+1,S_t-α)为近状态与远状态之间的距离，γ为理想间距。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】