[发明专利]一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在审
| 申请号: | 202211516697.9 | 申请日: | 2022-11-30 |
| 公开(公告)号: | CN116306903A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 陈永辉;刘轩驿;林彤;王战;李隆锋;陈双照;朱凌风;翁洪康 | 申请(专利权)人: | 浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司 |
| 主分类号: | G06N3/094 | 分类号: | G06N3/094;G06N3/092;G06N20/00 |
| 代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
| 地址: | 325600 浙江省温*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 智能 强化 学习 能源 系统 对抗 训练 框架 | ||
本发明涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,包括:构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。本发明的有益效果是:本发明将对抗性攻击建模为一个基于单智能体强化学习的攻击对手,并学习得到考虑攻击约束的最强攻击策略。从数学上,将该问题构建为对抗马尔可夫博弈,并通过鲁棒对抗训练提高基于多智能体强化学习的综合能源管理系统的性能。
技术领域
本发明涉及电力系统安全防御领域,更确切地说,它涉及一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。
背景技术
随着社会经济的发展和能源需求的增长,电力系统正在经历从化石燃料到清洁能源的规划和运行的根本性革命。在能源互联网快速发展的背景下,电、气、热、冷等多种能源耦合协调的综合能源系统可实现多能互补,促进可再生能源消纳,提升能源利用效率,缓解供需不平衡。相较于传统电力系统,综合能源系统的能量流动更加复杂,其运行调控涉及更复杂的负荷需求、供应装置和运行方式。能源需求、供应和存储相互高度耦合的新特征,将引起系统运行方式和动态特性复杂性提高、源荷双侧不确定性加剧、仿真系统数学模型变量与维数增多、安全稳定裕度减小等问题,从而致使基于数学模型机理的传统综合能源管理方法难以满足在线评估与实时控制的需求。为此,以多智能体强化学习为核心的数据驱动综合能源管理方法应运而生。随着信息和通信技术的融合,基于多智能体强化学习的综合能源管理系统其安全性与脆弱性问题更加不容小觑。综合能源管理系统的通信网络,包括监控和数据采集网络和智能电表等设备,都很容易受到恶意网络行为者的攻击。
发明内容
本发明的目的是克服现有技术中的不足,提供了一种面向多智能体强化学习能源系统的鲁棒对抗训练框架。本发明通过鲁棒对抗训练增强基于多智能体强化学习的综合能源管理系统对对抗攻击的抵御能力。首先构建了一个对手智能体,其目标是通过制定对抗攻击、造成控制系统的最差表现,将系统建模为一个对抗的部分可观察随机博弈系统;接着训练该对手智能体,以学习一个最优的确定性对抗攻击策略来产生有界扰动;最后对被害的多智能体强化学习综合能源管理系统采用鲁棒对抗训练,以增强模型鲁棒性。
第一方面,提供了一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,包括:
步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;
步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;
步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。
作为优选,步骤1包括:
步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化:
N,S,{Ai}i∈N,P,{Ri}i∈N,γ,{Oi}i∈N,Z
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司,未经浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211516697.9/2.html,转载请声明来源钻瓜专利网。





