[发明专利]一种基于能源需求响应管理的无模型强化学习方法在审
| 申请号: | 202211562407.4 | 申请日: | 2022-12-07 |
| 公开(公告)号: | CN116227806A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 李华青;李骏;郑李逢;冯丽萍;石亚伟;王慧维;李传东;夏大文;张伟;纪良浩;董滔;吕庆国;王政;陈孟钢;冉亮;杜镇源 | 申请(专利权)人: | 西南大学 |
| 主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q30/0283;G06Q50/06 |
| 代理公司: | 重庆智慧之源知识产权代理事务所(普通合伙) 50234 | 代理人: | 余洪 |
| 地址: | 400715*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 能源需求 响应 管理 模型 强化 学习方法 | ||
本发明提供一种基于能源需求响应管理的无模型强化学习方法,包括:构建住宅电器模型;结合居民综合用电成本和电力零售商利润确定社会福利,根据社会福利平衡居民综合用电成本与零售商利润,社会福利表示为基于价格的住宅需求响应管理非凸优化问题;根据电网的传输数据,分别采用基于Q‑表的Q学习算法、深度学习与Q学习相结合的Q‑网络算法和Actor‑Critic算法构建针对基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案;根据三种基于价格的住宅需求响应管理非凸优化问题的强化学习解决方案,确定最优解决方案和最优零售价格序列。本发明能够采用三种算法分别进行建模,实现对未知电力市场环境下的最佳零售价格规划。
技术领域
本发明涉及能源需求响应管理技术领域,尤其涉及一种基于能源需求响应管理的无模型强化学习方法。
背景技术
伴随着智能电网作为一类典型的网络物理系统在信息时代的快速发展,家庭能源管理系统是部署能源需求响应的关键技术之一。作为家庭能源管理系统的关键组成部分,住宅需求响应管理旨在利用负荷的能源使用变化来响应时间变化的电价或奖惩激励措施,以实现降低成本或其他收益。然而,由于住宅用电的随机性和弹性,为家庭制定有效的住宅需求响应管理策略是非常具有挑战性的。具体来说,由于居民的生活习惯,电器开启和关闭的时间和频率是不确定的,也是难以预测的。当电器因其能源消耗的可转移性而被进一步分类为可调度和不可调度时,住宅需求响应管理的复杂性就会增加。这些都使得住宅需求响应管理难以有效地规划电力需求的时间,以响应动态电价。此外,为了实现有效的负荷运行,需要及时确定准确的电器模型和参数,以模拟这些电器的功率特性和运行动力学。然而,普通家庭并不总是能够获得专业知识。
为了解决上述关于住宅需求响应管理的困难,学者们提出了一系列的方法。早期的住宅需求响应管理工作主要集中在最小化家庭的电力成本上。例如,将混合整数线性规划模型与家电的需求响应相结合,以减少家庭的日常能源消耗,但没有考虑家电使用的弹性和动态电价;或通过考虑消费者行为的不确定性来最小化最坏情况下的日常账单支付。同时,为了确保电器运行约束的概率满足,还开发了一个机会约束的优化模型。一般来说,基于价格的住宅需求响应管理鼓励负荷根据基于时间的定价机制调整他们的能源消耗,常见的策略有实时定价和使用时间定价。
从效益的角度看,目前对基于价格的住宅需求响应管理的研究分为三个部分。对于个人利益,倾向于通过选择合适的定价机制来降低电力成本或给客户带来其他利益。对于能源公司的利益来说,使公司利益最大化或使发电成本最小化是其追求的目标。而为了满足社会发展的合理需求,整合两者的相对利益成为一种趋势,因此社会效益最大化成为一个新的研究热点。
然而,在上述工作中仍有未解决的问题:1)需要系统识别步骤,即明确地优化模型、预测器和求解器。制定基于模型的需求响应策略需要构建模型和识别参数,由于模型的不准确性,性能可能会下降。2)现有基于价格的住宅需求响应管理作品在很大程度上依赖于确定性的定价模型,例如,使用时间定价、实时定价,这些模型不能反映动态电力市场的不确定性和灵活性。3)电网的短视性导致人们只关注负荷对当前定价策略的即时反应,而无法预测所有后续反应的影响。因此,开发一种基于未知住宅环境模型的方法来解决智能电网中的基于价格的住宅需求响应管理问题具有重要意义。
近年来,强化学习在业界得到了广泛的应用。它可以通过利用神经网络的端到端学习能力来克服上述问题,并在许多复杂的决策应用中取得了显著的成功,如智能电网中的分布式经济调度。作为能源调度问题之一,这种无模型强化学习算法激发了研究人员研究基于强化学习的住宅需求响应管理。例如,开发一个团体智能家居能源管理方案,以尽量减少能源成本和用户的热不适;或提出一种基于深度Q网络(Deep Q-Learning Network,DQN)的需求响应调度方法,用于室内空气温度控制和热舒适管理;或开发一种基于DQN的方法来优化智能家居中电动汽车的充电调度,使充电成本最小化;以及提出一种利用DQN方法对时序和时移负荷进行调度的在线建筑能源优化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211562407.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





