[发明专利]基于深度强化学习的分布式能源系统自治控制方法及系统有效
申请号: | 202011003363.2 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112186799B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 陈盛;王新迎;王继业 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司 |
主分类号: | H02J3/38 | 分类号: | H02J3/38;H02J3/06 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李宏德 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 分布式 能源 系统 自治 控制 方法 | ||
1.一种基于深度强化学习的分布式能源系统自治控制方法,其特征在于,包括:
从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习;
智能体神经网络将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;
按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;
根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制;
所述智能体神经网络在进行训练时,包括以下步骤:
S101、从能源管理系统模块读取T时刻的环境数据至数据池中,由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中;
S102、深度强化学习算法模型经过计算得到决策特征值,输出至决策空间,得到执行决策,再输入仿真系统;
S103、仿真系统进行执行决策仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,输出潮流数据至奖惩函数进行计算,将由奖励函数得到的奖励结果,反馈至智能体神经网络;
S104、智能体神经网络收到反馈的奖励结果,下发下一轮训练指令,仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块;
S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池,进行下一步训练;重复上述步骤S101-S105,直至训练结束;
所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量;
所述环境状态空间:用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据,所述电网、燃气网数据包括潮流数据和常规数据,所述潮流数据包括系统电压、电流、相位、相角、功率因素;所述常规数据包括电价,天然气价格,天然气使用量,所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据;
策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略;
所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算,在策略状态空间生成动作策略,并将动作策略输入到仿真系统模块进行仿真,实现状态转移,根据执行结果由奖励函数进行奖励计算;
在步骤S103中,由奖励函数得到的奖励结果时,根据输出的潮流数据是否收敛,设定如下规则:
潮流数据收敛于第一收敛域,则匹配奖励值;
潮流数据收敛于第二收敛域,则匹配一级惩罚值;
潮流数据收敛于第三收敛域,则匹配二级惩罚值;
潮流数据不收敛,则匹配第三惩罚值。
2.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法,其特征在于,在计算状态转移形成的应用于强化学习训练的策略轨迹采用如下公式表示:
τ={(st,at,rt)|t=1…T}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司,未经中国电力科学研究院有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003363.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工业设计加工用钢结构加工平台
- 下一篇:一种生物技术育种用培养箱