[发明专利]一种基于DQN算法的区域自动发电动态控制方法在审
申请号: | 201911186894.7 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110850720A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 张志轩;李晓宇;王亮;麻常辉;张鹏飞;李文博;杨冬;蒋哲;周宁;邢鲁华;李山;刘文学;张冰;房俏;赵康;马欢;陈博 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;国家电网有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 250002 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dqn 算法 区域 自动 发电 动态控制 方法 | ||
1.一种基于DQN算法的区域自动发电动态控制方法,其特征是,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
2.根据权利要求1所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,所述DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
3.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(1)中,DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值;奖励函数发CPS1指标指数kCPS1计算如下:
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数;
当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,奖励函数如下:
其中,ACEAVE-10-min是区域控制误差在10分钟内的平均值;Bs是互联神经网络中所有控制区域频率偏差的总和;ε10是CPS2指标值的目标频率范围;
4.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(2)中,Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,根据贝尔曼最优原理写成递归形式:
式中,E指进行求期望的操作,s和a分别指当前状态及对应选择的控制动作,s'为环境在动作a影响下转移到的新状态,a'为新状态s'下所选择的控制动作。
5.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(3)中,利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应:
式中,s和a分别指当前状态及对应选择的控制动作;
最优值函数a*(s)所对应的控制动作就是当前最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;国家电网有限公司,未经国网山东省电力公司电力科学研究院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911186894.7/1.html,转载请声明来源钻瓜专利网。