[发明专利]一种基于深度确定性梯度策略的光-蓄系统在线调度方法在审

专利信息
申请号: 202010842141.3 申请日: 2020-08-20
公开(公告)号: CN112072643A 公开(公告)日: 2020-12-11
发明(设计)人: 胡维昊;杜月芳;李坚;李涛;许潇;张真源;井实;曹迪;张蔓;王浩 申请(专利权)人: 电子科技大学
主分类号: H02J3/00 分类号: H02J3/00;H02J3/24;H02J3/28;H02J3/38;H02J3/46
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 确定性 梯度 策略 系统 在线 调度 方法
【权利要求书】:

1.一种基于深度确定性梯度策略的光-蓄系统在线调度方法,其特征在于,包括以下步骤:

(1)、采集光伏电站pv的历史发电数据,记为ppv,t,其中,t表示时刻,t=1,2,3,…;采集光-蓄系统的历史上网电价,记为λt

(2)、构建抽水蓄能电站phs的出力模型;

其中,pp,t为t时刻变速抽水泵的吸收功率,g为重力力加速度,H为抽水蓄能电站水头高度,qp,t为t时刻变速抽水泵的抽水量,ηp为变速抽水泵的效率,ptur,t为t时刻水轮机的发电功率,ηtur为水轮机的效率,qtur,t为t时刻水轮机发电用水量,Vt为t时刻抽水蓄能电站上游水库剩余水量,ε为上游水库水量的蒸发和泄漏系数,ψt为t时刻水库流入量,SoCt为t时刻上游水库剩余水量百分比,Vphsv为上游水库最大可用容量;

(3)、构建光-蓄系统的在线调度目标函数及约束条件;

目标函数为:

其中,Δt为相邻两时刻的间隔时长,T为优化运行周期,pphs,t为t时刻的待优化变量,当pphs,t为负数时表示抽水蓄能电站中变速抽水泵吸收功率,即pp,t=|pphs,t|;当pphs,t为正数时表示抽水蓄能电站中水轮机发出功率,即ptur,t=pphs,t;φt为t时刻联络线功率波动引起的经济惩罚值;

其中,φt满足:

其中,ρ1、ρ2为波动罚金系数;Δpg,t为t时刻联络线功率波动量,Δpg,t=|pg,t-Δpg,t-Δt|,pg,t为t时刻连联络线传输功率,pg,t=ppv,t+pphs,t

约束条件为:

其中,表示抽水蓄能的最大吸收功率,表示水轮机的最大发电功率,SoCmin表示上游水库最小允许剩余水量百分比,SoCmax表示上游水库最大允许剩余水量百分比;

(4)、搭建并训练基于深度确定性梯度策略算法(Deep Deterministic PolicyGradient,DDPG)的光-蓄系统在线调度模型;

(4.1)、将一个运行周期内的光-蓄系统的在线调度目标函数及约束条件转化为包含状态集合S、动作集合A和奖励函数r的无约束的马尔可夫决策过程;

其中,S包含决策过程所有状态,t时刻的状态st={ppv,tt,Δpg,t,SoCt};A包含决策过程所有动作,t时刻的动作at=pphs,t;t时刻在st下执行at获得的即时回报,记为rt(at|st);

(4.2)、将光-蓄系统的含约束优化问题转化为无约束问题;

其中,ρ3、ρ4为惩罚系数;

(4.3)、构建DDPG算法所需的四个结构相同的两组神经网络;

在线构建两个动作网络,记为μ、μ',其中参数集合分别记为θμ、θμ′用于实现输入状态st到输出动作at

在线构建两个评价网络,记为υ、υ',参数集合分别记为θυ、θυ′用于实现输入状态st、输出动作at到动作价值函数Qπ(st,at)的映射,π为映射策略;

(4.4)、设置基于深度确定性梯度策略算法的光-蓄系统在线调度模型的总迭代次数N和马尔可夫过程的迭代步数T;设置记忆库,记其容量为M,并初始化为空;初始化所有神经网络的参数集合,初始化n=1,初始化学习率α,初始化计数器m;

(4.5)、复位光-蓄系统,令t=1并获取当前状态st,然后执行一次马尔可夫过程;

(4.6)、判断t是否小于T,若t<T,则进入步骤(4.7),反之,则进入步骤(4.15);

(4.7)、将st送输入至动作网络μ,得输出动作at

(4.8)、根据输出动作at计算步骤(4.2)中的目标函数值rt,同时获得at作用后的下一时刻状态st+1

(4.9)、构建元组信息{st,at,rt,st+1},并将其存入记忆库的m%M位置处,然后赋值m=m+1;

(4.10)、判断m是否大于M,若是,则进入步骤(4.11);反之,则进入步骤(4.14);

(4.11)、基于深度确定性梯度策略在线更新动作网络μ的参数集合θμ

其中,b表示从记忆库中有放回且等概率抽样的元组信息个数,si,ai表示第i个元组信息中对应的状态和动作;表示在状态si和动作ai下对动作价值函数求ai的梯度,表示在状态si下网络μ的梯度;

(4.12)、通过最小化损失函数在线更新评价网络υ的参数集合θυ

其中,L(θυ)为网络υ的损失函数;Q(si,ai)表示在状态si和动作ai下评价网络υ输出的动作价值函数值;yi表示υ'网络的估计值;γ为折扣因子,表示网络υ的损失函数的梯度;

(4.13)、更新动作网络μ'和评价网络υ'的参数集合;

其中,τ为更新系数;

(4.14)、更新当前状态,赋值t=t+1且st=st+1,然后返回至步骤(4.6);

(4.15)、令n=n+1,再判断n是否大于N,如果是,则进入步骤(4.16);反之,则进入步骤(4.5);

(4.16)、迭代停止,并输出神经网络参数集合,从而得到光-蓄系统在线调度模型;

(5)、实时采集光伏出力和电价数据然后确定实时的并构建t时刻的实时状态最后将输入至光-蓄系统在线调度模型,得到实时输出动作然后按照实现光-蓄系统的在线调度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010842141.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top