[发明专利]一种基于强化学习的主动配电网有功无功联合控制方法有效

专利信息
申请号: 202110577192.2 申请日: 2021-05-26
公开(公告)号: CN113328435B 公开(公告)日: 2022-12-09
发明(设计)人: 孙广辉;王鑫明;李世辉;曹欣;贾晓卜;冯慧波;李少博;张飞飞;吴文传;刘昊天;王彬 申请(专利权)人: 国网河北省电力有限公司;国家电网有限公司;清华大学
主分类号: H02J3/00 分类号: H02J3/00;H02J3/18;H02J3/16;H02J3/46;H02J3/48;H02J3/50
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 廖元秋
地址: 050021 *** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 主动 配电网 有功 无功 联合 控制 方法
【权利要求书】:

1.一种基于强化学习的主动配电网有功无功联合控制方法,其特征在于,该方法首先分别建立主动配电网的近似仿真模型和有功无功联合控制的优化模型,根据该两个模型,建立基于马尔科夫过程决策的交互训练环境,通过采集各时刻主动配电网各节点有功功率、无功功率以及各节点电压的组成状态向量以及各智能逆变器的有功功率、无功功率和各无功补偿装置的无功功率构成训练样本;通过强化学习中的深度确定性策略梯度算法,并运用经验优化回放技术训练主动配电网有功无功联合控制智能体;利用训练完毕的智能体通过各时刻主动配电网的状态计算得到该时刻各智能逆变器的有功、无功功率和无功补偿装置的无功功率的优化结果,实现对主动配电网的控制;

该方法包括以下步骤:

1)建立主动配电网近似仿真模型,具体如下:

记主动配电网包含n+1节点,构建该主动配电网对应的无向图其中...,n为配电网的节点集合,节点0为主动配电网连接到外部电网的耦合节点;为支路集合,其中i,j分别代表支路两端的节点;

在所有n+1个节点中,有nSI个节点上的分布式电源装有智能逆变器,有nCD个节点装有无功补偿装置;

其中,所述nSI个节点与所述nCD个节点不重合,nSI+nCD≤n;

智能逆变器的有功无功可控范围和无功补偿器的无功可控范围由式(1)确定:

其中,PSIi,QSIi分别为第i台智能逆变器的有功功率和无功功率;

分别为第i台智能逆变器的有功功率上限和设计容量;

QCDi为第i台无功补偿装置的无功功率;

分别为第i台无功补偿装置的无功功率下限和上限;

为智能逆变器接入节点组成的集合;

为无功补偿装置接入节点组成的集合;

主动配电网潮流方程如式(2)所示:

其中,Pij,Qij分别为支路ij的有功功率和无功功率;Pj,Qj分别为节点j的有功功率、无功功率;Vi为节点i的电压;rij,xij分别为支路ij的电阻和电抗;

2)建立主动配电网有功无功联合控制的二阶锥优化模型,表达式如下:

其中,Ploss为主动配电网的网络损耗;P0为连接到外部电网的耦合节点的有功功率;PDj为第j个分布式电源的有功功率;

分别为节点i的电压下限和电压上限;

lij,Vi为辅助变量

3)结合步骤1)的仿真模型和步骤2)的优化模型,建立基于马尔科夫过程MDP决策的交互训练环境;具体方法如下:

建立t时刻的马尔科夫过程状态变量,如式(6)所示:

st=(P(t),Q(t),V(t),t) (6)

其中,P(t),Q(t)分别为t时刻主动配电网各节点有功功率Pj、无功功率Qj构成的向量;V(t)为t时刻主动配电网各节点电压Vi(t)构成的向量;t代表时刻;

对于步骤2)建立的优化模型,构建t时刻的回馈变量rt如式(7)所示:

其中,Cv为电压越限惩罚系数;Vv为电压越限总量;

构建强化学习智能体t时刻动作变量at,如式(8)所示:

at=(θSI(t),ASI(t),QCD(t)) (8)

其中,θSI(t)为t时刻各智能逆变器的功率因数θSIi(t)构成的向量,θSIi(t)=arctan(PSIi(t)/QSIi(t)),θSI∈[0,π];ASI(t)为t时刻各智能逆变器有功功率、无功功率的平方和ASIi(t)构成的向量QCD(t)为t时刻各无功补偿器无功功率QCD(t)构成的向量;

基于θSI(t)和ASI(t),则t时刻各智能逆变器的有功功率和无功功率为:

4)通过强化学习中的深度确定性策略梯度DDPG算法,并运用经验优化回放技术离线训练主动配电网有功无功联合控制智能体:具体步骤如下:

4-1)在训练过程中,从主动配电网获取由各时刻的(st,at,rt,st+1)组成的MDP样本,将所有的MDP样本(st,at,rt,st+1)存储到初始为空的经验池中;分别建立策略网络μθ(s)、价值在线网络Qφ(s,a)和价值目标网络三个神经网络,其中θ,φ,分别为策略网络、价值在线网络和价值目标网络的参数;

同时训练两组价值在线网络参数φ12,并且用参数较小的价值在线网络作为当前价值目标网络并且通过设定的延迟更新参数延迟更新φi,i∈{1,2},将更新后的价值在线网络参数记为

因此,第i个价值在线网络的每个样本(st,at,rt,st+1)的时序差分定义如式(10)所示:

其中γ为折扣因子,at=μθ(st),at+1=μθ(st+1);

价值目标网络根据下式(11)进行训练:

策略网络的策略π的目标为最大化状态价值函数如式(12)所示:

引入优先经验回放技术从经验池中选取时序差分绝对值最大的k个样本进行训练,具体方法如下:首先对经验池中各样本加入其对应的时序差分绝对值,将各样本更新为(st,at,rt,st+1,|δ|t),其中各样本时序差分绝对值的计算表达式为|δ|t=(|δ1|t+|δ2|t)/2;其中|δi|t表示样本(st,at,rt,st+1)在第i个价值在线网络的时序差分δit的绝对值;

根据式(13)的softmax概率分布P从经验池中选取时序差分绝对值最大k个样本进行训练:

其中,pi=|δ|i+ε为样本i的修正时序差分,ε为正数;α为衰减指数,a∈(0,2);N为经验池的长度;

通过重要性采样技术,对经验池中每个样本赋予权重,如式(14)所示:

其中,wi为经验池中第i个样本的权重因子,β为递增指数,β∈(0,1);

则式(11)和(12)转换成如式(15)和(16)所示:

4-2)具体的离线训练过程如下:

4-2-1)初始化经验池为空,初始化策略网络参数θ=0,初始化两个价值在线神经网络参数φ1=φ2=0,初始化两个价值目标网络的参数初始化价值网络更新速率ηq=0.001,初始化策略网络更新速率ηπ=0.001,初始化训练回合数eps=1;

4-2-2)初始化训练时刻t=1;

4-2-3)获取主动配电网当前时刻t的状态st,得到当前时刻智能体的动作at=μθ(st);

4-2-4)根据at和式(9)计算各智能逆变器的有功功率、无功功率和各无功补偿装置的无功功率,并下发给各智能逆变器和无功补偿装置;

4-2-5)根据式(7)计算当前时段的回馈变量rt

4-2-6)获取下一时刻的主动配电网状态st+1,然后将样本(st,at,rt,st+1)存入经验池中;

4-2-7)判定:若经验池中样本数大于等于k,则根据式(13)计算的概率分布P从经验池中选出k个样本,进入步骤4-2-8);否则令t=t+1,然后重新回到步骤4-2-3);

4-2-8)对于经过步骤4-2-7)选取的k个样本,根据wi=(NP(i))-b/max(wi)更新每个样本的权重因子,然后根据式(10)计算各样本的δ1i2i并得到每个样本的时序差分绝对值|δ|i=(|δ1|i+|δ2|i)/2;

更新pi=|δ|i+ε,

4-2-9)根据式(15)、式(16)以及下式(17)更新各神经网络的参数;

4-2-10)更新t=t+1,然后判定:若时刻t达到设定的最大训练时刻数,则一个训练回合结束,进入步骤4-2-11);否则重新回到步骤4-2-3);

4-2-11)令训练回合数eps=eps+1,并判定:若eps达到设定的最大回合数,则离线训练结束,得到离线训练完毕的智能体,该智能体包含离线训练完毕的策略网络、两个价值在线网络和两个价值目标网络;否则重新回到步骤4-2-2);

5)将步骤4)离线训练完毕的智能体投入在线运行,该训练完毕的智能体在每个时刻根据主动配电网的状态st=(P(t),Q(t),V(t),t),选取动作at=μθ(st),进而计算得到各智能逆变器的有功功率PSIi(t)、无功功率QSIi(t)和无功补偿装置的无功功率QCD(t)并下发给对应的各装置,以实现对主动配电网有功无功的联合控制;其中PSIi(t)和QSIi(t)根据式(9)确定。

2.如权利要求1所述一种基于强化学习的主动配电网有功无功联合控制方法,其特征在于,该方法还包括以下步骤:

6)经过步骤4)离线训练完毕的智能体根据每个时刻新获取的主动配电网的状态和所选取的动作进行在线持续训练;具体步骤如下:

6-1)初始化经验池为空,初始化各神经网络包括:1个策略网络、两个价值在线网络和两个价值目标网络的参数为步骤4)离线训练得到的参数,初始化价值网络更新速率ηq=0.001,初始化策略网络更新速率ηπ=0.001;

6-2)初始化在线持续训练时刻t=1;

6-3)获取主动配电网当前时刻t的状态st,得到当前时刻智能体的动作at=μθ(st);

6-4)根据at和式(9)计算各智能逆变器的有功功率、无功功率和各无功补偿装置的无功功率,并下发给各智能逆变器和无功补偿装置;

6-5)根据式(7)计算当前时段的回馈变量rt

6-6)获取下一时刻的主动配电网状态st+1,然后将样本(st,at,rt,st+1)存入经验池中;

6-7)判定:若经验池中样本数大于等于k,则根据式(13)计算的概率分布P从经验池中选出k个样本,进入步骤6-8);否则令t=t+1,然后重新回到步骤6-3);

6-8)对于经过步骤6-7)选取的k个样本,根据wi=(NP(i))-b/max(wi)更新每个样本的权重因子,然后根据式(10)计算各样本的δ1i2i并得到每个样本的时序差分绝对值|δ|i=(|δ1|i+|δ2|i)/2,更新pi=|δ|i+ε,

6-9)根据式(15)、式(16)以及式(17)更新各神经网络的参数,得到更新后的智能体;

6-10)更新t=t+1,然后重新回到步骤6-3)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国家电网有限公司;清华大学,未经国网河北省电力有限公司;国家电网有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110577192.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top