[发明专利]一种基于深度确定性梯度策略的光-蓄系统在线调度方法在审
| 申请号: | 202010842141.3 | 申请日: | 2020-08-20 |
| 公开(公告)号: | CN112072643A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 胡维昊;杜月芳;李坚;李涛;许潇;张真源;井实;曹迪;张蔓;王浩 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | H02J3/00 | 分类号: | H02J3/00;H02J3/24;H02J3/28;H02J3/38;H02J3/46 |
| 代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 确定性 梯度 策略 系统 在线 调度 方法 | ||
1.一种基于深度确定性梯度策略的光-蓄系统在线调度方法,其特征在于,包括以下步骤:
(1)、采集光伏电站pv的历史发电数据,记为ppv,t,其中,t表示时刻,t=1,2,3,…;采集光-蓄系统的历史上网电价,记为λt;
(2)、构建抽水蓄能电站phs的出力模型;
其中,pp,t为t时刻变速抽水泵的吸收功率,g为重力力加速度,H为抽水蓄能电站水头高度,qp,t为t时刻变速抽水泵的抽水量,ηp为变速抽水泵的效率,ptur,t为t时刻水轮机的发电功率,ηtur为水轮机的效率,qtur,t为t时刻水轮机发电用水量,Vt为t时刻抽水蓄能电站上游水库剩余水量,ε为上游水库水量的蒸发和泄漏系数,ψt为t时刻水库流入量,SoCt为t时刻上游水库剩余水量百分比,Vphsv为上游水库最大可用容量;
(3)、构建光-蓄系统的在线调度目标函数及约束条件;
目标函数为:
其中,Δt为相邻两时刻的间隔时长,T为优化运行周期,pphs,t为t时刻的待优化变量,当pphs,t为负数时表示抽水蓄能电站中变速抽水泵吸收功率,即pp,t=|pphs,t|;当pphs,t为正数时表示抽水蓄能电站中水轮机发出功率,即ptur,t=pphs,t;φt为t时刻联络线功率波动引起的经济惩罚值;
其中,φt满足:
其中,ρ1、ρ2为波动罚金系数;Δpg,t为t时刻联络线功率波动量,Δpg,t=|pg,t-Δpg,t-Δt|,pg,t为t时刻连联络线传输功率,pg,t=ppv,t+pphs,t;
约束条件为:
其中,表示抽水蓄能的最大吸收功率,表示水轮机的最大发电功率,SoCmin表示上游水库最小允许剩余水量百分比,SoCmax表示上游水库最大允许剩余水量百分比;
(4)、搭建并训练基于深度确定性梯度策略算法(Deep Deterministic PolicyGradient,DDPG)的光-蓄系统在线调度模型;
(4.1)、将一个运行周期内的光-蓄系统的在线调度目标函数及约束条件转化为包含状态集合S、动作集合A和奖励函数r的无约束的马尔可夫决策过程;
其中,S包含决策过程所有状态,t时刻的状态st={ppv,t,λt,Δpg,t,SoCt};A包含决策过程所有动作,t时刻的动作at=pphs,t;t时刻在st下执行at获得的即时回报,记为rt(at|st);
(4.2)、将光-蓄系统的含约束优化问题转化为无约束问题;
其中,ρ3、ρ4为惩罚系数;
(4.3)、构建DDPG算法所需的四个结构相同的两组神经网络;
在线构建两个动作网络,记为μ、μ',其中参数集合分别记为θμ、θμ′用于实现输入状态st到输出动作at;
在线构建两个评价网络,记为υ、υ',参数集合分别记为θυ、θυ′用于实现输入状态st、输出动作at到动作价值函数Qπ(st,at)的映射,π为映射策略;
(4.4)、设置基于深度确定性梯度策略算法的光-蓄系统在线调度模型的总迭代次数N和马尔可夫过程的迭代步数T;设置记忆库,记其容量为M,并初始化为空;初始化所有神经网络的参数集合,初始化n=1,初始化学习率α,初始化计数器m;
(4.5)、复位光-蓄系统,令t=1并获取当前状态st,然后执行一次马尔可夫过程;
(4.6)、判断t是否小于T,若t<T,则进入步骤(4.7),反之,则进入步骤(4.15);
(4.7)、将st送输入至动作网络μ,得输出动作at;
(4.8)、根据输出动作at计算步骤(4.2)中的目标函数值rt,同时获得at作用后的下一时刻状态st+1;
(4.9)、构建元组信息{st,at,rt,st+1},并将其存入记忆库的m%M位置处,然后赋值m=m+1;
(4.10)、判断m是否大于M,若是,则进入步骤(4.11);反之,则进入步骤(4.14);
(4.11)、基于深度确定性梯度策略在线更新动作网络μ的参数集合θμ;
其中,b表示从记忆库中有放回且等概率抽样的元组信息个数,si,ai表示第i个元组信息中对应的状态和动作;表示在状态si和动作ai下对动作价值函数求ai的梯度,表示在状态si下网络μ的梯度;
(4.12)、通过最小化损失函数在线更新评价网络υ的参数集合θυ;
其中,L(θυ)为网络υ的损失函数;Q(si,ai)表示在状态si和动作ai下评价网络υ输出的动作价值函数值;yi表示υ'网络的估计值;γ为折扣因子,表示网络υ的损失函数的梯度;
(4.13)、更新动作网络μ'和评价网络υ'的参数集合;
其中,τ为更新系数;
(4.14)、更新当前状态,赋值t=t+1且st=st+1,然后返回至步骤(4.6);
(4.15)、令n=n+1,再判断n是否大于N,如果是,则进入步骤(4.16);反之,则进入步骤(4.5);
(4.16)、迭代停止,并输出神经网络参数集合,从而得到光-蓄系统在线调度模型;
(5)、实时采集光伏出力和电价数据然后确定实时的并构建t时刻的实时状态最后将输入至光-蓄系统在线调度模型,得到实时输出动作然后按照实现光-蓄系统的在线调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010842141.3/1.html,转载请声明来源钻瓜专利网。





