[发明专利]一种基于强化学习的异常天气场景风电预测方法在审

专利信息
申请号: 202210066557.X 申请日: 2022-01-20
公开(公告)号: CN114219182A 公开(公告)日: 2022-03-22
发明(设计)人: 刘艳丽;王俊毅 申请(专利权)人: 天津大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/06;G06N20/00
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 韩帅
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 异常 天气 场景 预测 方法
【权利要求书】:

1.一种基于强化学习的异常天气场景风电预测方法,所述风电预测方法基于强化学习系统,所述强化学习系统包括数据集、策略网络和价值网络;其特征在于:所述强化学习系统还包括根据异常天气中历史时段风电功率变化对所述策略网络、价值网络更新预测未来时段风电状况的环境互换模块,其中:所述环境互换模块通过如下步骤完成对策略网络、价值网络更新:

S101、初始化价值网络与策略网络;

初始化价值网络与策略网络,如式(5-1)-(5-2)所示:

q(a,s,w) (5-1)

π(a|s,θ) (5-2)

其中,s表示状态,a表示动作,w,θ分别表示价值网络与策略网络;

S102、根据历史阶段风电功率通过如下公式对数据集训练获得环境奖赏值;

rt=-|yt-at| (5-5)

其中,yt表示与xt对应的未来时刻风电出力数据,即训练样本的输出;表示不同的分位数水平;

S103、根据历史阶段风电功率通过如下公式对数据集训练获得预测价值;

qt=q(st,at,wt) (5-7)

qt+1=q(st+1,at+1,wt) (5-8)

其中,st与st+1表示t时刻与t+1时刻的状态,at与at+1表示对应的动作决策,qt与qt+1表示长期的回馈,q表示回馈函数;

S104、根据环境奖赏值、预测价值通过如下公式对价值网络更新;

δt=qt-(rt+γqt+1) (5-9)

wt+1=wt-α·δt·dw,t (5-11)

其中,δt表示误差,γ、α为给定参数,dw,t表示求导,wt与wt+1表示t时刻与t+1时刻的价值网络参数;

S105、根据环境奖赏值、预测价值通过如下公式对策略网络更新;

θt+1=θt+β·qt·dθ,t (5-13)

其中,β为给定系数,dθ,t表示求导,θt与θt+1表示t时刻与t+1时刻的策略网络参数。

2.根据权利要求1所述的一种基于强化学习的异常天气场景风电预测方法的应用,其特征在于:所述环境互换模块在强化学习系统应用过程:

S201、根据历史阶段风电出力数据构建强化学习系统的训练数据集;

S202、对强化学习系统中数据集、策略网络和价值网络进行初始化;

S203、采用权利要求1中所述环境互换模对策略网络、价值网络更新步骤;

S204、判断是否完成对所有样本的训练;

S205、判断是否完成所有迭代次数;

S206、输出预测未来阶段风电出力状况。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210066557.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top