[发明专利]基于ME-TD3算法的风电场动态参数智能校核方法有效
| 申请号: | 202110265065.9 | 申请日: | 2021-03-10 |
| 公开(公告)号: | CN113032934B | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 安军;周庆锋;刘征帆;金宏;蒋振国;季轶;王玉鹏;杨宇童 | 申请(专利权)人: | 东北电力大学;国网吉林省电力有限公司吉林供电公司 |
| 主分类号: | G06F30/18 | 分类号: | G06F30/18;G06F30/27;G06N3/08;G06F111/02;G06F113/06 |
| 代理公司: | 吉林市达利专利事务所 22102 | 代理人: | 陈传林 |
| 地址: | 132012 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 me td3 算法 电场 动态 参数 智能 校核 方法 | ||
1.一种基于ME-TD3算法的风电场动态参数智能校核方法,其特征是,它包括以下内容:
1)裁剪双Q学习:在对裁剪双Q学习的基础上,对裁剪双Q学习进行改进,设置两套评价网络来估算Q值,并取相对较小的Q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的Q值会出现差异,通过选择小的Q值进行估计,
式中,y为目标值函数,r为即刻回报值,γ为折扣率,为状态s'和动作下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志位,表示存放经验的经验池;
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
3)目标策略平滑:ME-TD3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
式中,a'(s')为状态s'下的动作值,为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,-c和c分别为正态分布扰动值的上、下限,aLow和aHigh分别为动作值上、下限;
4)多经验池概率回放:ME-TD3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低,具体步骤为:
①首先初始化PSAT仿真环境和ME-TD3算法中的动作网络、评价网络1以及评价网络2的权重参数θμ、θμ′、以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
②将参数初值s输入到ME-TD3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s′,将调整后的参数s′与仿真环境PSAT进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s′,以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于-1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
③当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1-ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为Batch_size,对于ME-TD3算法的评价网络,将样本的调整后参数s′输入到动作网络中得到下一步的调整策略a′,将下一步的调整策略a′加入服从正态分布的噪声后与调整后参数s′一同输入到ME-TD3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetQ,将调整前参数s和校核策略a一同分别输入到ME-TD3算法的评价网络1和2中得到主网络的评价值currentQ1和currentQ2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用Adam优化器分别对ME-TD3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于ME-TD3算法的动作网络,将调整前的参数s和校核策略a一同输入到ME-TD3算法的评价网络1中,取输出值的负平均值作为ME-TD3算法动作网的损失值,ME-TD3算法的动作网络和评价网络均采用软更新的方式对网络参数进行更新,且更新频率为ME-TD3算法的评价网络更新k次,ME-TD3算法的动作网络更新1次;
④对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
targetQ=r+(1-done)·γ·Qmin (5)
ME-TD3算法的动作网络的应用过程为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到ME-TD3算法的动作网络中,动作根据保存下来的知识给出一个能使ME-TD3算法的评价网络评价最高的参数校核策略,使有功功率、极端电压的仿真轨迹与实测数据轨迹参数最接近。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北电力大学;国网吉林省电力有限公司吉林供电公司,未经东北电力大学;国网吉林省电力有限公司吉林供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265065.9/1.html,转载请声明来源钻瓜专利网。





