[发明专利]基于强化和模仿学习的多微网电能交易的定价策略及系统在审
| 申请号: | 202110991407.5 | 申请日: | 2021-08-26 |
| 公开(公告)号: | CN113706197A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 杨清宇;张杨;李东鹤;安豆 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q10/04;G06Q50/06;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 范巍 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 模仿 学习 多微网 电能 交易 定价 策略 系统 | ||
1.一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,包括以下步骤:
步骤1、将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型,定义马尔科夫博弈模型的环境状态、博弈者的行为和奖赏函数;
步骤2、构建主电网的深度神经网络,包括策略网络、评判网络、目标策略网络和目标评判网络;
策略网络用于根据代理人的行为信息输出定价策略,评判网络用于评判代理人的行为策略,目标网络则用于策略网络和评判网络的更新;
步骤3、根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值;
步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为;
步骤5、根据定价行为确定主电网的奖赏函数;
步骤6、将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合,采用过渡集合对主电网的策略网络和评判网络进行更新;
步骤7、重复步骤3-6,直至完成所有训练片段中所有时刻的主电网策略网络和评判网络的更新,策略网络输出最优的定价策略。
2.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,步骤3中微网电能需求预测值的确定方法如下:
其中,e为训练片段,为在训练片段e时微网在时刻t的需求量,相应需求量的预测值。
3.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,步骤4中确定主电网的定价行为的方法如下:
所述主电网观察电能市场当前的环境状态,并依据所观察到的状态以及随机产生的噪声Nt选择执行定价行为。
4.根据权利要求3所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述主电网的定价行为的表达式如下:
at=μ(st)+Ut(0,ζtI)
其中,Ut(0,ζtI)是用于确定探索率的随机高斯噪声,st代表当前时刻状态,μ代表策略网络,ζ为初始噪声大小,值为0.95,I代表单位矩阵。
5.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述过渡集合的表达式如下:
{st-1,at-1,rt-1st}
其中,st-1为上一时刻的环境状态,at-1为上一时刻的行为信息,rt-1为上一时刻的奖赏函数,st为当前时刻的环境状态。
6.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述主电网的策略网络的更新方法如下:
其中,θu为策略网络的参数,Q(xj,aj)为评判网络的输出;
所述评价网络的更新方法如下:
其中F为每次策略训练时选取的数据量,γ为折扣因子,Q′(xj,aj)为目标评判网络的输出。
7.根据权利要求6所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述目标策略网络和目标评判网络的参数跟随策略网络和评价网络进行软更新:
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,τ表示软更新参数,τ=1,θu′为目标策略网络的参数,θQ为评判网络的参数,θQ′为目标评判网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110991407.5/1.html,转载请声明来源钻瓜专利网。





