[发明专利]一种基于深度确定性梯度策略的光-蓄系统在线调度方法在审

申请号：	202010842141.3	申请日：	2020-08-20
公开（公告）号：	CN112072643A	公开（公告）日：	2020-12-11
发明（设计）人：	胡维昊;杜月芳;李坚;李涛;许潇;张真源;井实;曹迪;张蔓;王浩	申请（专利权）人：	电子科技大学
主分类号：	H02J3/00	分类号：	H02J3/00;H02J3/24;H02J3/28;H02J3/38;H02J3/46
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度确定性梯度策略系统在线调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度确定性梯度策略的光-蓄系统在线调度方法，其特征在于，包括以下步骤：

(1)、采集光伏电站pv的历史发电数据，记为p_pv,t，其中，t表示时刻，t＝1,2,3,…；采集光-蓄系统的历史上网电价，记为λ_t；

(2)、构建抽水蓄能电站phs的出力模型；

其中，p_p,t为t时刻变速抽水泵的吸收功率，g为重力力加速度，H为抽水蓄能电站水头高度，q_p,t为t时刻变速抽水泵的抽水量，η_p为变速抽水泵的效率，p_tur,t为t时刻水轮机的发电功率，η_tur为水轮机的效率，q_tur,t为t时刻水轮机发电用水量，V_t为t时刻抽水蓄能电站上游水库剩余水量，ε为上游水库水量的蒸发和泄漏系数，ψ_t为t时刻水库流入量，SoC_t为t时刻上游水库剩余水量百分比，V_phsv为上游水库最大可用容量；

(3)、构建光-蓄系统的在线调度目标函数及约束条件；

目标函数为：

其中，Δt为相邻两时刻的间隔时长，T为优化运行周期，p_phs,t为t时刻的待优化变量，当p_phs,t为负数时表示抽水蓄能电站中变速抽水泵吸收功率，即p_p,t＝|p_phs,t|；当p_phs,t为正数时表示抽水蓄能电站中水轮机发出功率，即p_tur,t＝p_phs,t；φ_t为t时刻联络线功率波动引起的经济惩罚值；

其中，φ_t满足：

其中，ρ₁、ρ₂为波动罚金系数；Δp_g,t为t时刻联络线功率波动量，Δp_g,t＝|p_g,t-Δp_g,t-Δt|，p_g,t为t时刻连联络线传输功率，p_g,t＝p_pv,t+p_phs,t；

约束条件为：

其中，表示抽水蓄能的最大吸收功率，表示水轮机的最大发电功率，SoC_min表示上游水库最小允许剩余水量百分比，SoC_max表示上游水库最大允许剩余水量百分比；

(4)、搭建并训练基于深度确定性梯度策略算法(Deep Deterministic PolicyGradient,DDPG)的光-蓄系统在线调度模型；

(4.1)、将一个运行周期内的光-蓄系统的在线调度目标函数及约束条件转化为包含状态集合S、动作集合A和奖励函数r的无约束的马尔可夫决策过程；

其中，S包含决策过程所有状态，t时刻的状态s_t＝{p_pv,t,λ_t,Δp_g,t,SoC_t}；A包含决策过程所有动作，t时刻的动作a_t＝p_phs,t；t时刻在s_t下执行a_t获得的即时回报，记为r_t(a_t|s_t)；

(4.2)、将光-蓄系统的含约束优化问题转化为无约束问题；

其中，ρ₃、ρ₄为惩罚系数；

(4.3)、构建DDPG算法所需的四个结构相同的两组神经网络；

在线构建两个动作网络，记为μ、μ'，其中参数集合分别记为θ^μ、θ^μ′用于实现输入状态s_t到输出动作a_t；

在线构建两个评价网络，记为υ、υ'，参数集合分别记为θ^υ、θ^υ′用于实现输入状态s_t、输出动作a_t到动作价值函数Q^π(s_t,a_t)的映射，π为映射策略；

(4.4)、设置基于深度确定性梯度策略算法的光-蓄系统在线调度模型的总迭代次数N和马尔可夫过程的迭代步数T；设置记忆库，记其容量为M，并初始化为空；初始化所有神经网络的参数集合，初始化n＝1，初始化学习率α，初始化计数器m；

(4.5)、复位光-蓄系统，令t＝1并获取当前状态s_t，然后执行一次马尔可夫过程；

(4.6)、判断t是否小于T，若t＜T，则进入步骤(4.7)，反之，则进入步骤(4.15)；

(4.7)、将s_t送输入至动作网络μ，得输出动作a_t；

(4.8)、根据输出动作a_t计算步骤(4.2)中的目标函数值r_t，同时获得a_t作用后的下一时刻状态s_t+1；

(4.9)、构建元组信息{s_t,a_t,r_t,s_t+1}，并将其存入记忆库的m％M位置处，然后赋值m＝m+1；

(4.10)、判断m是否大于M，若是，则进入步骤(4.11)；反之，则进入步骤(4.14)；

(4.11)、基于深度确定性梯度策略在线更新动作网络μ的参数集合θ^μ；

其中，b表示从记忆库中有放回且等概率抽样的元组信息个数，s_i,a_i表示第i个元组信息中对应的状态和动作；表示在状态s_i和动作a_i下对动作价值函数求a_i的梯度，表示在状态s_i下网络μ的梯度；

(4.12)、通过最小化损失函数在线更新评价网络υ的参数集合θ^υ；

其中，L(θ^υ)为网络υ的损失函数；Q(s_i,a_i)表示在状态s_i和动作a_i下评价网络υ输出的动作价值函数值；y_i表示υ'网络的估计值；γ为折扣因子，表示网络υ的损失函数的梯度；

(4.13)、更新动作网络μ'和评价网络υ'的参数集合；

其中，τ为更新系数；

(4.14)、更新当前状态，赋值t＝t+1且s_t＝s_t+1，然后返回至步骤(4.6)；

(4.15)、令n＝n+1，再判断n是否大于N，如果是，则进入步骤(4.16)；反之，则进入步骤(4.5)；

(4.16)、迭代停止，并输出神经网络参数集合，从而得到光-蓄系统在线调度模型；

(5)、实时采集光伏出力和电价数据然后确定实时的并构建t时刻的实时状态最后将输入至光-蓄系统在线调度模型，得到实时输出动作然后按照实现光-蓄系统的在线调度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010842141.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种马达旋转角度及速度测量装置及方法
下一篇：面向低截获的组网雷达驻留时间与辐射功率联合优化方法

同类专利

专利分类

H 电学

H02 发电、变电或配电
H02J 供电或配电的电路装置或系统；电能存储系统
H02J3-00 交流干线或交流配电网络的电路装置
H02J3-01 .减少谐波或波纹的装置
H02J3-02 .应用单个网络以不同频率同时配电的；应用单个网络对交流和直流同时配电的
H02J3-04 .用于连接以相同频率但由不同电源供电的网络
H02J3-10 .恒流供电系统
H02J3-12 .用于通过改变网络负载的一个特性来调整交流网络中的电压的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度确定性梯度策略的光-蓄系统在线调度方法在审

专利文献下载