[发明专利]一种双评价器单执行器的强化学习方法及系统在审
申请号: | 202110415953.4 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113268854A | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 任维雅;周仕扬;任小广;王彦臻;易晓东 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06K9/62 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种双评价器单执行器的强化学习方法及系统,包括:S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;S2根据初始化噪声函数在初始化环境中得到一个状态;S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;根据设定的迭代条件重复上述步骤训练双评价器单执行器的强化学习;其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明解决了无模型强化学习中,样本利用率不高、训练收敛速度慢等问题。 | ||
搜索关键词: | 一种 评价 执行 强化 学习方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110415953.4/,转载请声明来源钻瓜专利网。