[发明专利]一种基于深度强化学习的智慧家庭能量管理方法及系统有效
| 申请号: | 201910724530.3 | 申请日: | 2019-08-07 |
| 公开(公告)号: | CN110458443B | 公开(公告)日: | 2022-08-16 |
| 发明(设计)人: | 余亮;谢蒂;谢玮玮;邹玉龙 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/06;G06N3/04 |
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210023 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 智慧 家庭 能量 管理 方法 系统 | ||
1.一种基于深度强化学习的智慧家庭能量管理方法,包括:
步骤一:将在无明确建筑热动力学模型和维持室内温度在舒适范围的情况下最小化智慧家庭能量成本问题建模为马尔可夫决策过程,并设计其环境状态、行为、奖励函数;
在智慧家庭能量成本最小化问题中,目标函数是智慧家庭能量成本,包括智慧家庭与电网进行能量买卖产生的电费C1,t和能量存储系统充放电折损产生的费用C2,t,其表达式如下:
C2,t=ψ(|ct|+|dt|),
式中,C1,t为t时刻智慧家庭与电网进行能量买卖产生的电费,C2,t为t时刻能量存储系统充放电折损产生的费用,vt为t时刻的买电电价,ut为t时刻的卖电电价,gt为t时刻智慧家庭与电网买卖的电量,ψ为能量存储系统的折旧系数,ct为t时刻能量存储系统的充电功率,dt为t时刻能量存储系统的放电功率;当gt0时,智慧家庭买电,成本为C1,t=vtgt;gt≤0时,成本为C1,t=utgt;
智慧家庭能量成本最小化问题的决策变量有:智慧家庭与电网之间的能量买卖数量、能量存储系统的充放电功率、暖通空调系统的输入功率;需考虑的约束有:与能量存储系统相关的约束、与暖通空调系统相关的约束、与能量守恒相关的约束,具体如下:
(1)能量存储系统存储水平的动态变化模型为:Bt+1=Bt+ηcct+dt/ηd,式中,Bt+1为能量存储系统在t时刻的下一时间步的存储水平,Bt为能量存储系统在t时刻的存储水平;ηc∈(0,1],为能量存储系统的充电效率;ηd∈(0,1],为能量存储系统的放电效率;
(2)Bmin≤Bt≤Bmax;式中,Bmin为能量存储系统的最小存储水平,Bmax为能量存储系统的最高存储水平;
(3)0≤ct≤cmax,-dmax≤dt≤0,式中,cmax为能量存储系统的充电功率最大值,dmax为能量存储系统的放电功率最大值;
(4)ct·dt=0;
(5)暖风空调系统在t时刻的输入功率et小于其额定功率emax,且输入功率et可连续调节;
(6)gt+pt+dt=bt+et+ct;式中,pt为分布式发电机在t时刻的功率输出,bt为刚性负载在t时刻的需求功率;
所述马尔可夫决策过程的环境状态如下:
所述环境状态的表达式如下:st=(pt,bt,Bt,Ttout,Tt,vt,t′),
式中,st为智慧家庭在t时刻的环境状态,pt为t时刻的分布式发电机输出功率,bt为t时刻的刚性负载需求功率,Bt为t时刻的能量存储系统储能水平,Ttout为t时刻的室外温度,Tt为t时刻的室内温度,vt为t时刻的买电电价,t′为t时刻的当前绝对时间在一天内的相对时间;
所述行为的表达式如下:
at=(ft,et),
式中,at为能量存储系统和暖通空调系统在t时刻的行为,ft为能量存储系统在t时刻的充放电功率,ft≥0表示充电,ft0表示放电,et为暖通空调系统在t时刻的输入功率;设定能量存储系统的充放电功率ft∈[-dmax,cmax],当ft≥0时表示充电,此时ct=ft且dt=0;相反,当ft0时表示放电,此时dt=ft且ct=0,该马尔可夫决策过程的行为可表示为:at=(ft,et),能量存储系统需满足以下要求:
min{-dmax,(Bmin-Bt)ηd}≤dt≤0,ft0;
所述奖励函数表达式如下:
Rt=-β(C1,t(st-1,at-1)+C2,t(st-1,at-1))-C3,t(st),
式中,Rt为t时刻的奖励,β为能量系统的成本相对于温度违背导致的惩罚成本的重要性系数,C1,t(st-1,at-1)为t时刻因能量买卖导致的惩罚,st-1为智慧家庭在t时刻的上一时间步的环境状态,at-1为能量存储系统和暖通空调系统在t时刻的上一时间步的行为,C2,t(st-1,at-1)为t时刻因能量存储系统折损产生的惩罚,C3,t(st)为t时刻因违背室内舒适温度范围导致的惩罚,C3,t(st)=([Tt-Tmax]++[Tmin-Tt]+),其与当前环境状态相关,式中,Tmax为室内舒适温度最高值,Tmin为室内舒适温度最低值;
步骤二:以累计奖励最大化为目标,利用深度确定性策略梯度算法训练出不同环境状态下能量存储系统和可控负载的最优行为;云端深度神经网络包括行动者网络、目标行动者网络、评论家网络、目标评论家网络;其中行动者网络和目标行动者网络与本地深度神经网络的结构相同;
行动者网络输入层的神经元个数与环境状态的分量数相对应,行动者网络隐藏层所采用的激活函数包括线性整流函数,行动者网络输出层的神经元个数与行为的分量数相对应,行动者网络输出层所采用的激活函数分别为双曲正切函数和sigmoid函数;
评论家网络和目标评论家网络的结构相同,其输入层包括两个分别与环境状态和行为相关的独立子层,环境状态相关子层的神经元个数与环境状态的分量数相对应,行为相关子层的神经元个数与行为的分量数相对应,两子层分别连接有若干隐藏层,与两子层分别连接的若干隐藏层的最后一个隐藏层的神经元个数相同,所述最后一个隐藏层的输出求和后输入至新的隐藏层,所述新的隐藏层所采用的激活函数包括线性整流函数,与所述新的隐藏层连接的输出层所采用的激活函数包括线性激活函数;
步骤三:智慧家庭能量管理系统智能体的行为控制模块根据本地深度神经网络输出的当前行为,对能量存储系统和可控负载实施控制。
2.一种基于权利要求1的深度强化学习的智慧家庭能量管理方法的能量管理系统,其特征是,包括:
信息采集模块,用于获取智慧家庭的当前环境状态、下一时间步环境状态和下一时间步奖励,以及将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;
本地深度神经网络,用于根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;
行为控制模块,用于根据所述当前行为,对能量存储系统或/和可控负载实施控制;
在线学习模块,用于从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练,并将训练好的云端深度神经网络参数更新至本地深度神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910724530.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





