[发明专利]一种基于策略的Q-Learning算法控制松散回潮热风温度的方法在审
申请号: | 202110220618.9 | 申请日: | 2021-02-26 |
公开(公告)号: | CN113080499A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 吴悦;司小山;赵志新;孙乾德;李文亮;徐文涛;徐潇媛;季亦凡;李小霞;刘海龙;张国强 | 申请(专利权)人: | 红云红河烟草(集团)有限责任公司 |
主分类号: | A24B3/04 | 分类号: | A24B3/04;A24B3/00;G06F17/16;G06K9/62 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 高雪琴 |
地址: | 650032 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 learning 算法 控制 松散 回潮 热风 温度 方法 | ||
1.一种基于策略的Q-Learning算法控制松散回潮热风温度的方法,其特征在于:所述的一种基于策略的Q-Learning算法控制松散回潮热风温度的方法包括以下步骤:步骤1.数据准备,步骤2.数据处理.步骤3.离线训练策略选择器.步骤4.评估策略选择器训练结果,步骤5.部署应用。
2.根据权利要求1所述的一种基于策略的Q-Learning算法控制松散回潮热风温度的方法,其特征在于:所述的步骤1数据准备采用以下具体方法实现:一批次的松散回潮前水分仪到料尾水分检测花费了为t min,以稳态时间计算,数据采集系统每1s检测一次数据,每批次采集60t条数据,松散回潮所有传感器及执行器信息总量为n,因此可以建立一个nX60t矩阵,随机选用数采系统上的m批次数据,将数据修整为nX60t,因此,可以建立一个mXnX60t的3维张量。
3.根据权利要求1或2所述的一种基于策略的Q-Learning算法控制松散回潮热风温度的方法,其特征在于:所述的步骤2数据处理,将其离散为[60.0,60.1,…,69.9,70.0],此为可能的温度设定值;
将松散回潮热风散热器蒸汽开度0-100%离散为[0.0,0.1,0.2,…,99.9,100.0],此为可能的风散热器蒸汽开度;
将松散回潮排潮风门开度0-100%离散为[0.0,0.1,0.2,…,99.9,100.0],此为可能的排潮风门开度;
将松散回潮新风风门开度0-100%离散为[0.0,0.1,0.2,…,99.9,100.0],此为可能的新风风门开度;
将热风温度设定值SP与其实际值PV比较,如果偏差较大则给予惩罚,偏差较小给予奖励;则可以用一分段函数表示如下:
。
4.根据权利要求3所述的一种基于策略的Q-Learning算法控制松散回潮热风温度的方法,其特征在于:所述的步骤4,采用以下技术方案实现:
其中Yi=ri+γmax(Q(si,ai)),为策略选择器的计算结果输出值。
5.根据权利要求4所述的一种基于策略的Q-Learning算法控制松散回潮热风温度的方法,其特征在于:所述的步骤5采用以下技术方案实现的:计算服务器提取数据采集系统数据库中的数据,运算程序,计算并给出最优控制策略π*,并将结果发送至现场PLC,PLC控制松散回潮执行机构控制热风散热器蒸汽开度、回潮排潮风门开度、松散回潮新风风门开度,程序持续运行,在一定时间周期T内对以上控制参数进行调节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于红云红河烟草(集团)有限责任公司,未经红云红河烟草(集团)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110220618.9/1.html,转载请声明来源钻瓜专利网。