[发明专利]基于强化学习的神经网络控制方法及强化学习系统在审
| 申请号: | 202010115498.1 | 申请日: | 2020-02-25 |
| 公开(公告)号: | CN111445005A | 公开(公告)日: | 2020-07-24 |
| 发明(设计)人: | 陈保卫;刘淼;李庚达;梁凌;李雄威;王昕;段震清;张婷;胡勇;曾德良 | 申请(专利权)人: | 国电新能源技术研究院有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京大成律师事务所 11352 | 代理人: | 陈福 |
| 地址: | 102209 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 神经网络 控制 方法 系统 | ||
本发明公开了一种基于强化学习的神经网络控制方法及强化学习系统。本发明中,动作网络根据被控对象或其机理模型的阶次和迟延来确定状态控制量,被控对象接收动作网络发送的状态控制量输出动作值;由估值网络基于输出动作值对当前控制效果与预定目标对比进行评价,在对被控对象或其机理模型探索过程中加入随机扰动和模型变化,并同时对动作网络和估值网络进行更新,获得控制律。通过动作网络和估值网络对被控对象或其机理模型的探索,不断更新和优化控制策略,在一定程度上模拟人对环境的探索和学习过程,最终得到一个快速准确且具有一定鲁棒性的神经网络控制器,能用于解决许多控制领域的难题。
技术领域
本发明属于智能控制领域,特别涉及一种基于强化学习的神经网络控制方法
背景技术
在智能控制领域中,各种先进的控制方法层出不穷,常用有以下几种方法:1.专家系统:利用专家知识对专门的或困难的问题进行描述,但存在自动获取知识困难、无自学能力、知识面太窄等问题,尽管专家系统在解决复杂的高级推理中获得较为成功的应用,但是专家控制的实际应用仍相对较少。2.模糊控制:用模糊语言描述系统,既可以描述应用系统的定量模型也可以描述其定性模型。模糊逻辑可适用于任意复杂的对象控制,但是随着输入输出变量的增加,模糊逻辑的推理将变得非常复杂且难于调试。3.学习控制:规定某种判据(准则),系统本身就能通过统计估计、自我检测、自我评价和自我校正等方式不断自行调整,直至达到准则要求为止。学习控制不需要了解太多的系统信息,但需要1~2个学习周期,因此其快速性相对较差。
以上智能控制方法均存在不同程度的缺陷,尤其在现场实际应用中,这些智能控制方法难以解决非线性、大迟延、时变系统的控制难题,因此在实际现场中仍然采用传统的PID控制算法。
发明内容
近年来随着人工智能的发展,基于AlphaGo的设计理念,提出了基于强化学习的神经网络控制方法,本发明提供了一种基于强化学习的神经网络控制方法,使控制器能够学习人的控制思想,且灵活应对各种可能的随机扰动以及对象特性的变化。具体如下:
(1)一种基于强化学习的神经网络控制方法,其中,
步骤1:动作网络根据被控对象的历史输入输出和给定值输出一个控制量;
步骤2:根据控制量获取被控对象的输出;
步骤3:估值网络根据被控对象的输出获取控制量的奖励值,并根据奖励值评估该输出的价值;
步骤4:通过最小化预定目标的价值和输出的价值的差值来更新估值网络;
步骤5:通过最大化输出的价值来更新动作网络;
步骤6:通过重复更新估值网络和动作网络,实现估值网络和动作网络收敛。
(2)如(1)所述的基于强化学习的神经网络控制方法,其中,在步骤4,增加通过滑动平均算法更新作为估值网络拷贝的目标网络;在步骤5中增加通过滑动平均算法更新作为动作网络拷贝的目标网络。
(3)如(1)至(2)所述的基于强化学习的神经网络控制方法,其中,步骤2中通过将控制量输入被控对象获取。
(4)如(1)至(3)所述的基于强化学习的神经网络控制方法,其中,步骤2中通过建立被控对象的机理模型,将控制量输入机理模型获取被控对象的输出。
(5)如(1)至(4)所述的基于强化学习的神经网络控制方法,其中,采集被控对象的输入输出数据,建立神经网络模型作为机理模型。
(6)如(1)至(5)所述的基于强化学习的神经网络控制方法,其中,机理模型中不含被控对象的外扰和时变。
(7)如(1)至(6)所述的基于强化学习的神经网络控制方法,其中,机理模型中包含被控对象的外扰和时变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国电新能源技术研究院有限公司,未经国电新能源技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010115498.1/2.html,转载请声明来源钻瓜专利网。





