[发明专利]一种工业副产煤气系统长期调度方法有效
申请号: | 202111245007.6 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113869795B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 王天宇;赵珺;王伟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q10/04;G06Q50/04;G06Q50/06 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 煤气 系统 长期 调度 方法 | ||
1.一种工业副产煤气系统长期调度方法,其特征在于,步骤如下:
(1)能源数据的特征粒度化建模
采用自适应粒度化方法,根据能源数据的波动趋势特征划分数据粒度;给定时间序列X={x1,x2,...,xn},其一阶和二阶动态变量表示为:
Δ={Δ1,Δ2,...,Δn-1},E={e1,e2,...,en-2} (1)
其中,Δi=xi+1-xi,ei=Δi+1-Δi;通过Δi×Δi-1和ei×ei-1的符号判断数据点xi所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据;对于时间序列X={x1,x2,...,xp,xp+1,...,xn},若Δp×Δp-1<0∪ep×ep-1<0,则以xp作为分割点,划分X为{x1,x2,...,xp}和{xp+1,xp+2,...,xn};在实施粒度划分前,先将能源数据进行滤波预处理;为了进一步实现能源数据的语义增强,采用由时间跨度Dτ、波动幅值Aτ和趋势线型Lτ组成的三维特征向量来对信息粒Gτ进行描述,记为Gτ={Dτ,Aτ,Lτ},其中τ为粒度时间步长;
(2)基于粒度对比网络的知识提取及策略计算
建立粒度对比网络获得与调度状态相关的知识表示,并基于该知识表示拟合历史调度样本中的专家调整量,计算出初始调度策略;
粒度对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述,即其中e表示不同调度事件,n为输入因素个数;粒度对比网络模型分为以下四个部分:
1)首先根据历史时刻的专家调度数据将数据样本定性地划分为不同的子集
2)通过基于神经网络的编码器f(·)从数据的粒度化特征描述中提取表示向量;采用长短时记忆网络来获得调度状态的特征表示,即he=f(se)=LSTM(se),其中为网络的隐藏表示;
3)通过具有单隐藏层的神经网络映射层g(·)将提取的表示向量映射到对比损失空间,该神经网络映射层得到的状态知识表示ze相比于上一层的he具有更好的对比学习效果;采用MLP来获得最终的状态知识表示,即ze=g(he)=MLP(he);经过对比学习后,ze相比于se能够反映出能源系统的调度状态,因此ze还被用于actor-critic框架中的状态空间表示;
4)在状态知识表示ze的基础上建立全连接输出层,得到初始调度策略,即ue=Output(ze);对于所建立粒度对比网络的学习过程,分别从定性和定量的两个层次进行训练:
1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本其表示向量相互接近,而区分不同子集样本的表示向量以尽可能区分不同的调度工况;这一过程的损失函数定义如下:
其中,p表示与属于同一子集的样本个数;q为不同子集样本个数;d(·)表示向量间的距离,采用余弦相似度来衡量;
针对专家调度数据中包含的多分类情况,提出一种多步训练策略;在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识;若专家经验样本总数为N,在训练模型时使用所有可能的数据对,用于训练的数据信息量达到(N)(N-1)/2;
2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示;
首先定义验证集{s1,s2,...,sl},根据上述过程得到的网络模型计算相应的状态知识表示{z1,z2,...zl};在知识表示向量的基础上建立输出层来拟合专家调度量;通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能够满足实际系统条件;若存在样本数据集的误差高于某一设定的阈值θ,即
其中,ye为真实调度量;说明当前的表示空间无法覆盖该样本集中所包含的调度知识;这种情况下,需要进一步训练粒度对比网络使得其能够区分出和验证集中其他样本;由于需要学习出与已有表示空间不同的特征,因此在这一过程中定义相互排斥的损失函数:
其中,r为未满足条件的样本个数,l为验证集样本总数;上述训练结束后,需再次根据学习后的网络模型判断验证集中的样本能否满足阈值条件,并不断执行上述过程实现多层次迭代学习,直到所有样本均满足设定条件;
在对比学习训练结束后,给定粒度对比网络模型的输入se,得到相应的状态知识表示ze;基于ze建立全连接输出层,通过有监督学习的方式拟合专家调度量,计算出基于专家知识的初始调度策略;
(3)基于Actor-Critic框架的补偿策略计算
针对副产能源系统的长期调度表现,提出一种Actor-critic框架实现对于初始调度策略的动态补偿,其中critic部分将状态知识表示ze作为强化学习的状态,建立深度Q网络计算调度策略的值函数评价;Actor部分利用由粒度对比网络计算的初始调度策略作为初始解,根据策略的评价值与目标设定值的偏差,通过数据拟合的方式获得调度策略的补偿量,并迭代计算出最终的调度方案;
1)Critic部分构建评价网络对调度策略进行评价;网络的输入为状态知识表示ze和动作ae的集合,分别经过一层神经网络后进行拼接,在此基础上构建多层隐藏层与ReLU激活函数层建立深度神经网络,网络输出为值函数Q,critic网络结构;
在每个调度事件发生时刻计算调度奖赏,因此定义以调度事件为单位的值函数,即
其中,rewardk定义为第k个调度事件的奖赏,通过副产煤气系统调度效果的评价指标描述,定义为
其中,prof为固定利润,loss为每次柜位达到机械上、下限的时损失的利润;loss后括号内的内容表示柜位达到机械上、下限的次数,len为调度事件时长;θ则是数值较小的阈值;t_leveli为第i时刻的柜位值;HMB、LMB和HSB,LSB分别表示柜位的机械上下限和安全上下限,sign(·)与G(·)函数分别如式(7)所示:
基于Q网络学习的思想更新深度神经网络的参数,定义损失函数如下:
其中,Qw为由神经网络表示的评价网络Q值函数,w为当前评价网络的权值参数,ze为当前调度事件下由粒度对比网络获得的状态知识表示,即ze=g(f(se));ze+1为在调度事件e实施动作ae后,由数据预测模型获得的下一调度事件发生时刻(e+1)所对应的系统状态知识表示;γ为强化学习过程中奖励的衰减系数;
采用软更新的方式来提高网络的稳定性,Q'w表示目标评价网络;评价网络参数更新公式如下:
w'←τw+(1-τ)w' (11)其中,α为评价网络学习率,τ为软更新系数;
2)Actor部分比较初始调度策略的值函数评价Qw(ze,ue)与设定的长期调度目标Q*,并结合能源系统的状态知识表示ze计算出初始调度策略ue的动态补偿量Δue;
在补偿值的计算过程中,根据给定Q*和由critic部分得到的值函数评价Qw(ze,ue),计算出调度目标返还值ΔQ(ze,ue)=Q*-Qw(ze,ue),并建立以ΔQ(ze,ue),当前调度事件下的状态知识表示ze以及其值函数估计Qw(ze,ue)为输入,补偿值Δue为输出的非线性关系,即
Δue=f(ΔQ(ze,ue),ze,Qw(ze,ue)) (12)
基于历史调度时刻的案例样本建立训练集,采用数据驱动方法拟合此非线性关系,计算出初始调度策略ue的动态补偿量Δue,进而得到最终的调度方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111245007.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理