[发明专利]一种基于迭代学习控制的批次反应釜控制方法的生成方法有效
申请号: | 202110255704.3 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113050412B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 洪文晶;徐星海;师佳 | 申请(专利权)人: | 厦门大学 |
主分类号: | G05B13/02 | 分类号: | G05B13/02 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 刘剑锋 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 控制 批次 反应 方法 生成 | ||
本发明涉及一种基于迭代学习控制的批次反应釜控制方法的生成方法,所述迭代学习控制包含迭代学习控制算法和强化学习算法,所述方法包含以下步骤:S1,调试批次反应釜;S2,通过迭代学习控制算法对所述批次反应釜进行多批次的轨迹跟踪;采集所述批次反应釜的多批次数据并存入经验回放池中;S3,通过强化学习控制算法提取所述多批次数据,生成初始控制策略;S4,通过强化学习控制算法对所述批次反应釜实时轨迹跟踪;采集所述批次反应釜的实时数据并存入经验回放池中;S5,通过强化学习控制算法利用所述多批次数据和所述实时数据对所述初始控制策略进行多次更新优化,直到得到稳定控制策略。
技术领域
本发明涉及自动控制领域,具体指有一种基于迭代学习控制的批次反应釜控制方法的生成方法。
背景技术
目前对批次反应釜进行控制的主要方法为迭代学习控制(Iterative LearningControl,ILC)。这种控制算法通过利用之前批次得到的误差信息对控制输入进行优化,使得控制器在批次任务这类重复性任务中不断逼近最优控制策略。
由于实际生产过程重复性不高,对于前馈型迭代学习控制算法来说,仅利用之前批次过程的控制信息进行策略优化会导致鲁棒性下降,因此现有的迭代学习控制算法无法对非重复目标轨迹的批次反应过程进行有效控制。并且,实际生产过程生产周期长,对生产安全要求高,仅利用反馈信息以及探索更新的方式进行控制任务需要大量的学习时间以及有几率产生违反安全生产的策略。现有的学习算法无法结合迭代数据和实时数据生成更具优势的控制方法。
针对上述的现有技术存在的问题设计一种基于迭代学习控制的批次反应釜控制方法的生成方法是本发明研究的目的。
发明内容
针对上述现有技术存在的问题,本发明在于提供一种基于迭代学习控制的批次反应釜控制方法的生成方法,能够有效解决上述现有技术存在的问题。
本发明的技术方案是:
一种基于迭代学习控制的批次反应釜控制方法的生成方法,所述迭代学习控制包含迭代学习控制算法和强化学习算法,所述方法包含以下步骤:
S1,调试批次反应釜,使其处于初始稳定工作点,根据反应工艺参数设定目标控制轨迹;
S2,通过迭代学习控制算法对所述批次反应釜进行多批次的轨迹跟踪;采集所述批次反应釜的多批次数据并存入经验回放池中,所述多批次数据包含输入数据、输出数据以及物理状态数据;
S3,通过强化学习控制算法提取所述多批次数据,生成初始控制策略;
S4,通过强化学习控制算法对所述批次反应釜实时轨迹跟踪;采集所述批次反应釜的实时数据并存入经验回放池中,所述实时数据包含输入数据、输出数据以及物理状态数据;
S5,通过强化学习控制算法利用所述多批次数据和所述实时数据对所述初始控制策略进行多次更新优化,直到得到稳定控制策略。
进一步地,所述迭代学习控制算法为P-型迭代学习控制算法。
进一步地,所述P-型迭代学习控制算法为前馈型控制算法。
进一步地,所述强化学习控制算法为深度确定性策略梯度强化学习算法。
进一步地,步骤S3中,所述控制策略生成模块按批次顺序依次提取所述多批次数据。
进一步地,步骤S5中,通过强化学习算法利用所述多批次数据和所述实时数据对所述初始控制策略进行多次更新优化之后,进一步包含以下步骤:通过所述多批次数据引导所述强化学习控制算法进行有效学习。
进一步地,步骤S5中,所述多批次数据的数据量占所述多批次数据和所述实时数据的数据量总和的15%-35%。
进一步地,所述迭代学习控制算法的学习率L=0.4-0.6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255704.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子烟雾化器
- 下一篇:一种基于波形法原理的钢纤维送压式生产设备