[发明专利]一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在审
| 申请号: | 202211516697.9 | 申请日: | 2022-11-30 |
| 公开(公告)号: | CN116306903A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 陈永辉;刘轩驿;林彤;王战;李隆锋;陈双照;朱凌风;翁洪康 | 申请(专利权)人: | 浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司 |
| 主分类号: | G06N3/094 | 分类号: | G06N3/094;G06N3/092;G06N20/00 |
| 代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
| 地址: | 325600 浙江省温*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 智能 强化 学习 能源 系统 对抗 训练 框架 | ||
1.一种面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,包括:
步骤1、构造一个对抗智能体以生成对抗攻击,并建模为对抗性部分可观察的随机博弈系统;
步骤2、固定经过预训练的被害多智能体策略,训练一个最优的确定性对抗策略来产生有界扰动;
步骤3、固定最优的对抗攻击策略,通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。
2.根据权利要求1所述的面向多智能体强化学习能源系统的鲁棒对抗训练框架,其特征在于,步骤1包括:
步骤1.1,将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题,每个智能体控制一个建筑,通过优化所有智能体的策略以使得整个团队的累积奖励最大化:
其中,N是智能体数量,S是环境状态,Ai是第i个智能体的动作空间,是联合动作空间,定义为A=A1×…×AN;P:S×A×S→Δ(S)是任意t时刻给定动作下从状态st到下一个t+1时刻状态st+1的状态转移概率;是第i个智能体从(st,at)到下一时刻状态st+1的及时反馈奖励;γ是折扣因子;Oi是第i个智能体的观测空间,联合观测空间是{Oi}i∈N,定义为O=O1×…×ON;Z:S×A→Δ(O)是任意t时刻联合观测ot∈O在任意动作at下,状态st的观测概率;
在t时刻,每个智能体i根据观测通过策略选择动作然后,环境根据状态转移概率P移动到下一个状态,st+1~P(·|st,at);每个智能体i获得奖励和新的局部观测
步骤1.2、在所述综合能源管理系统中引入一个对手智能体,通过生成最强对抗攻击引起模型最差性能,将这个系统建模为对抗性部分可观察的随机博弈问题:
<W,S,Aadv,{Ai}i∈N,P,{Ri}i∈w,Radv,γ,{Oi}i∈N,Z>
其中N是受害智能体数量,S是环境状态,Aadv和Radv分别是攻击者的行动空间和奖励函数;Ai是第i个受害智能体的动作空间,是联合动作空间,定义为A=A1×…×AN;P:S×Aadv×A×S→Δ(S)是给定动作和Aadv下从状态st到下一个时刻状态st+1的状态转移概率;是第i个智能体从(st,at)到下一时刻状态st+1的及时反馈奖励;γ是折扣因子;Oi是第i个智能体的观测空间,联合观测空间是{Oi}i∈N,定义为O=O1×…×ON;Z:S×A→Δ(O)是任意t时刻联合观测ot∈O在任意动作at下,状态st的观测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司,未经浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211516697.9/1.html,转载请声明来源钻瓜专利网。





