[发明专利]基于强化学习的神经网络控制方法及强化学习系统在审
| 申请号: | 202010115498.1 | 申请日: | 2020-02-25 |
| 公开(公告)号: | CN111445005A | 公开(公告)日: | 2020-07-24 |
| 发明(设计)人: | 陈保卫;刘淼;李庚达;梁凌;李雄威;王昕;段震清;张婷;胡勇;曾德良 | 申请(专利权)人: | 国电新能源技术研究院有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京大成律师事务所 11352 | 代理人: | 陈福 |
| 地址: | 102209 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 神经网络 控制 方法 系统 | ||
1.一种基于强化学习的神经网络控制方法,其特征在于,
步骤1:动作网络根据被控对象的历史输入输出和给定值输出一个控制量;
步骤2:根据控制量获取被控对象的输出;
步骤3:估值网络根据被控对象的输出获取控制量的奖励值,并根据奖励值评估该输出的价值;
步骤4:通过最小化预定目标的价值和输出的价值的差值来更新估值网络;
步骤5:通过最大化输出的价值来更新动作网络;
步骤6:通过重复更新估值网络和动作网络,实现估值网络和动作网络收敛。
2.根据权利要求1所述的基于强化学习的神经网络控制方法,其特征在于,在步骤4,增加通过滑动平均算法更新作为估值网络拷贝的目标网络;在步骤5中增加通过滑动平均算法更新作为动作网络拷贝的目标网络。
3.根据权利要求1所述的基于强化学习的神经网络控制方法,其特征在于,步骤2中通过将控制量输入被控对象获取。
4.根据权利要求1所述的基于强化学习的神经网络控制方法,其特征在于,步骤2中通过建立被控对象的机理模型,将控制量输入机理模型获取被控对象的输出。
5.根据权利要求4所述的基于强化学习的神经网络控制方法,其特征在于,采集被控对象的输入输出数据,建立神经网络模型作为机理模型。
6.根据权利要求4至5任一项所述的基于强化学习的神经网络控制方法,其特征在于,机理模型中不含被控对象的外扰和时变。
7.根据权利要求4至5任一项所述的基于强化学习的神经网络控制方法,其特征在于,机理模型中包含被控对象的外扰和时变。
8.根据权利要求1所述的基于强化学习的神经网络控制方法,其特征在于,所述动作网络为LSTM网络。
9.根据权利要求1所述的基于强化学习的神经网络控制方法,其特征在于,所述估值网络能够生成值函数,该值函数能够描述被控对象当前输出的奖励值,根据该输出的奖励值能够评估该输出的价值,该价值描述预定目标与当前输出的差距。
10.一种采用如权利要求1或权利要求3至10任一项所述基于强化学习的神经网络控制方法的强化学习系统,其特征在于,包括:一被控对象,一与被控对象连接向被控对象发送状态控制量的动作网络;动作网络能够记录状态控制量和被控对象的输出动作值,动作网路内置策略,策略根据记录的发送状态控制量和被控对象的输出动作值生成待发送的状态控制量;估值网络内置奖励函数,能够根据输出动作值评价被控对象状态与预定目标的差距,并根据该差距更新估值网络和动作网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国电新能源技术研究院有限公司,未经国电新能源技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010115498.1/1.html,转载请声明来源钻瓜专利网。





