[发明专利]一种基于深度学习和强化学习的玻璃熔炉温度控制方法有效

专利信息
申请号: 201910522327.8 申请日: 2019-06-17
公开(公告)号: CN110187727B 公开(公告)日: 2021-08-03
发明(设计)人: 邹承明;杨鹏程;姜德生 申请(专利权)人: 武汉理工大学
主分类号: G05D23/32 分类号: G05D23/32
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 严彦
地址: 430070 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 强化 玻璃 熔炉 温度 控制 方法
【权利要求书】:

1.一种基于深度学习和强化学习的玻璃熔炉温度控制方法,用于以天然气和氧气为燃料的全氧玻璃熔炉,其特征在于:针对大规模复杂的熔炉环境模型对环境预测和决策控制的拟合能力不够和模型不能适应环境随时间产生的概念漂移的问题,建立温度仿真模型和温度控制模型,通过调节燃料阀门,使熔窑温度保持稳定;

基于深度学习的熔炉温度模型建立过程为,通过传感器收集熔炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度和熔炉压力,作为深度神经网络的输入,以预测未来某时间段的温度趋势,所述深度神经网络采用双向循环长短时神经网络,通过将双向循环神经网络中的非线性单元替换为长短时循环神经网络模块得到;收集的数据具体包括长时间采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度、天然气流量、天然气阀门开度、天然气阀门设定值、氧气流量、氧气阀门开度、氧气阀门设定值和窑压,并加入红外摄像机,从熔炉的6个方向拍摄获取区域温度;传感器数据采集频率为10秒/次~300秒/次的固定频率,将未来半小时的温度作为神经网络输出的标签值,以预测未来半小时的温度趋势,通过损失函数,反向传播更新神经网络的参数;

基于深度学习和强化学习的熔炉温度控制模型建立过程为,将熔炉环境的关键变量输入采用深层确定性策略梯度网络实现的深度强化学习模型,输出燃料阀门开度的偏移量;将开度偏移量和当前熔炉环境的关键变量输入温度模型,预测未来温度变化趋势;根据预测的温度趋势和温度设定值的差值,建立温度控制模型的损失函数;通过反向传播的方法,更新模型参数;所述熔炉环境的关键变量包括温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值;

使用深度强化学习模型实时计算燃料阀门开度的偏移量实现如下,

深度强化学习模型基于三个基本要素状态、动作和奖励,初始化熔炉环境并输入到动作网络,动作网络接收相应状态St作为输入,经过计算后产生一个推荐动作at作为输出并返回到熔炉环境,熔炉采取的推荐动作,产生一个奖励rt并到达下一个状态st+1,将元组st,at,rt,st+1存储到记忆池M中;基于记忆池更新评价网络和动作网络,在模型训练完成后,最终输出的推荐动作at,以指令形式传到天然气和氧气的控制阀门;

选择长短时双向循环神经网络作为深度神经网络,设xt是在第t时刻的输入,代表第t时刻熔炉各关键位点的温度T,氧气流量Qo,天然气流量Qg,氧气阀门开度So,天然气阀门开度Sg,熔炉压力P,yt是在第t时刻的输出,对应预测的未来某时刻的温度值,ht是在第t时刻隐藏层的状态;

实时计算氧气和天然气阀门调整偏移量的计算方式如下,

使用深度学习和强化学习,建立温度控制模型有三个基本要素,即状态,动作和奖励,状态表示一切能描述生产线生产状态的监测量,包括熔窑温度、熔窑压力和雾化气压力;动作表示能真正控制生产线的控制量,包括窑温和窑压对应的控制量;在定义评估系统运行好坏的奖励函数奖励时,采用温度的标准值,即传感器标识为“SL”的值,SL表示设定值;

采用深层确定性策略梯度网络实现的过程如下,

[1]初始化熔炉环境St并输入到动作网络;

[2]动作网络接收状态St作为输入,经过计算后产生一个推荐动作at作为输出并将其返回到熔炉环境:

at=μ(stμ)

其中,函数μ( )代表动作网络的功能,其中θμ是神经网络的参数;

[3]熔炉采取步骤[2]中的推荐动作,产一个奖励rt并到达下一个状态st+1,将元组st,at,rt,st+1存储到记忆池M中,记为M(st,at,rt,st+1);

[4]在记忆池中,随机选取一批N条元组,使用元组来学习策略;

其中,N表示预设的数量;

[5]按下式计算损失函数:

其中,

L为损失函数,

N为计算损失的样本数量;

为评价网络的输出;

si和ai就是内存池中的状态和动作变量;

i为从记忆池中取的元组的序号,取值为1到N;

Q( )为评价网络,输入si,aiQ是状态和在该状态下采取的动作,输出是采取这个策略的收益;

ri为奖励值,是在某个状态下采取某个动作后,环境直接反馈的奖励值,具体实施时用户可以预设奖励函数;

γ为0-1的系数;

μ′( )表示正在训练的动作网络,Q′( )表示正在训练的评价网络;

[6]通过最小化损失函数L来更新评价网络;

[7]使用确定性策略梯度定理来更新动作网络:

其中,

表示函数μ在输入为si这个点的所有参数θμ的梯度算子;

s表示状态值;

a表示动作值;

表示动作网络的梯度算子;

表示评价网络的梯度算子;

以上动作网络和评价网络都是采用双向循环-长短时循环神经网络;

在模型训练完成后,最终输出的推荐动作at,以指令形式传到天然气和氧气的控制阀门上,直接控制氧气的阀门,天然气阀门选择直接按照理论最优比例跟随氧气阀门的值;

采用在线学习方式,通过实时收集的数据,增量实时在线更新模型,以适应季节变化、熔炉损耗变化和原料变化因素带来的模型偏移。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910522327.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top