[发明专利]一种基于多智能体强化学习的多微网系统协同优化方法在审
申请号: | 202210178581.2 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114611772A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 刘俊峰;王晓生;曾君;卢俊菠 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06N3/08;G06Q50/06 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 周春丽 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 多微网 系统 协同 优化 方法 | ||
本发明公开了一种基于多智能体强化学习的多微网系统协同优化方法,包括如下三个部分:第一部分,建立微网中各设备的数学模型和多微网协同优化宏观模型;第二部分,采用神经网络来拟合多智能体强化学习算法Nash‑Q中的价值函数,解决了维数灾难问题;第三部分,在离线数据集中训练Nash‑Q学习算法直到收敛,训练完成后的智能体用于在线优化,能快速做出合理的决策。本发明可以实现各个微网的利益均衡;对Nash‑Q学习算法的改进解决了维数灾难问题,适用于复杂环境;方法对模型的依赖程度低,在离线环境中训练完成后,算法可根据当前情况快速做出合理的决策,可以较好地满足多微网协同调度的在线决策要求。
技术领域
本发明涉及微电网的运行、仿真、分析与调度的技术领域,尤其涉及一种基于多智能体强化学习的多微网系统协同优化方法。
背景技术
随着微电网技术的发展,多个微电网接入同一个配电网区域,构成了多微网系统。充分挖掘多微网间源储荷所具有的时空互补特性,实现多微网系统内能量互补,是目前微网发展的一种新趋势。相较于单微网运行优化,多微网的运行优化更为复杂:其一在于,微网内部能量流动具有多向性、多种能量在不同时间和空间层面有不同调度需求,多微网间的协同面临更多的影响因素及不确定性;其二则是,微网个体的自趋利性导致参与多微网系统协同的前提是最大化自身的利益,需兼顾个体与集群的效益。
从已有的研究来看,对于多微网系统的能量管理,传统多采用集中式优化,从整体的角度建立多微网系统的优化经济调度模型(徐青山,李淋,蔡霁霖,等.考虑电能交互的冷热电多微网系统日前优化经济调度[J].电力系统自动化,2018,42(21):36-44.)。这忽视了微网个体的主动性,难以契合微网乃至智能电网未来的发展趋势。有研究将博弈论引入多微网系统的运行优化中,(吴福保,刘晓峰,孙谊媊,等.基于冷热电联供的多园区博弈优化策略[J].电力系统自动化,2018,42(13):68-75.)以各园区日运转成本最小为目标,建立基于冷热电联供系统的多园区非合作博弈优化模型,实现了园区多能流互补协同优化,这充分体现了微网个体的自利性和智能性,与多微网系统分布式的特点相符合。在多主体博弈的框架下,通过求解博弈的纳什均衡来协调各微网的利益,是多微网系统协同优化的有效途径。但是,多微网系统具有的高维度、不确定性及多能流耦合等特点,导致多微网系统博弈模型的纳什均衡求解十分困难。目前,纳什均衡的一般求解方法是采用迭代搜索法,针对每个智能体的策略优化采用经典优化算法,如牛顿法(陈刚,杨毅,杨晓梅,等.基于分布式牛顿法的微电网群分布式优化调度方法[J].电力系统自动化,2017,41(21):156-162.)或者启发式算法,如粒子群算法(吴定会,高聪,纪志成.混合粒子群算法在微电网经济优化运行的应用[J].控制理论与应用,2018,35(04):457-467.)。从这些研究来看,经典优化算法对模型依赖性高,建模受到了限制;启发式算法虽然对模型依赖程度低,但都是基于简单生物群体行为,不具有学习记忆能力,泛化学习能力不足并且计算耗时长。随着人工智能技术的发展,作为人工智能重要分支之一的强化学习也广泛受到电力研究者的关注。在多利益主体环境下,常常采用多智能体强化学习算法Nash-Q来求解智能体的最优策略,(刘洪,李吉峰,葛少云,等.基于多主体博弈与强化学习的并网型综合能源微网协调调度[J].电力系统自动化,2019,43(01):40-48.)以多智能体间利益均衡为目标建立了并网型综合微能源网的联合博弈决策模型,并采用Nash-Q学习算法求解博弈的Nash均衡。但是Nash-Q学习算法在面对复杂环境时会遇到策略集的维数灾难问题,难以直接使用。
发明内容
本发明的目的在于克服现有技术的缺点和不足,提出了一种基于多智能体强化学习的多微网系统协同优化方法,基于博弈论建立多微网系统的协同优化模型,实现各个微网的利益均衡,充分体现了微网个体的自主性和智能性。针对该模型纳什均衡求解困难的问题,提出一种改进的Nash-Q学习算法,该算法使用神经网络来拟合价值函数,解决了Nash-Q学习算法直接应用于复杂环境时遇到的维数灾难问题,并且训练完成后的强化学习算法能根据当前情况快速做出合理的决策,满足在线优化的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210178581.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立式留声机用唱片智能防护装置
- 下一篇:微光学列阵元件
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理