[发明专利]一种基于强化学习的异常天气场景风电预测方法在审
申请号: | 202210066557.X | 申请日: | 2022-01-20 |
公开(公告)号: | CN114219182A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 刘艳丽;王俊毅 | 申请(专利权)人: | 天津大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/06;G06N20/00 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 异常 天气 场景 预测 方法 | ||
1.一种基于强化学习的异常天气场景风电预测方法,所述风电预测方法基于强化学习系统,所述强化学习系统包括数据集、策略网络和价值网络;其特征在于:所述强化学习系统还包括根据异常天气中历史时段风电功率变化对所述策略网络、价值网络更新预测未来时段风电状况的环境互换模块,其中:所述环境互换模块通过如下步骤完成对策略网络、价值网络更新:
S101、初始化价值网络与策略网络;
初始化价值网络与策略网络,如式(5-1)-(5-2)所示:
q(a,s,w) (5-1)
π(a|s,θ) (5-2)
其中,s表示状态,a表示动作,w,θ分别表示价值网络与策略网络;
S102、根据历史阶段风电功率通过如下公式对数据集训练获得环境奖赏值;
rt=-|yt-at| (5-5)
其中,yt表示与xt对应的未来时刻风电出力数据,即训练样本的输出;表示不同的分位数水平;
S103、根据历史阶段风电功率通过如下公式对数据集训练获得预测价值;
qt=q(st,at,wt) (5-7)
qt+1=q(st+1,at+1,wt) (5-8)
其中,st与st+1表示t时刻与t+1时刻的状态,at与at+1表示对应的动作决策,qt与qt+1表示长期的回馈,q表示回馈函数;
S104、根据环境奖赏值、预测价值通过如下公式对价值网络更新;
δt=qt-(rt+γqt+1) (5-9)
wt+1=wt-α·δt·dw,t (5-11)
其中,δt表示误差,γ、α为给定参数,dw,t表示求导,wt与wt+1表示t时刻与t+1时刻的价值网络参数;
S105、根据环境奖赏值、预测价值通过如下公式对策略网络更新;
θt+1=θt+β·qt·dθ,t (5-13)
其中,β为给定系数,dθ,t表示求导,θt与θt+1表示t时刻与t+1时刻的策略网络参数。
2.根据权利要求1所述的一种基于强化学习的异常天气场景风电预测方法的应用,其特征在于:所述环境互换模块在强化学习系统应用过程:
S201、根据历史阶段风电出力数据构建强化学习系统的训练数据集;
S202、对强化学习系统中数据集、策略网络和价值网络进行初始化;
S203、采用权利要求1中所述环境互换模对策略网络、价值网络更新步骤;
S204、判断是否完成对所有样本的训练;
S205、判断是否完成所有迭代次数;
S206、输出预测未来阶段风电出力状况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210066557.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气相色谱仪
- 下一篇:计数装置及吸入式给药设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理