[发明专利]一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在审

申请号：	202211516697.9	申请日：	2022-11-30
公开（公告）号：	CN116306903A	公开（公告）日：	2023-06-23
发明（设计）人：	陈永辉;刘轩驿;林彤;王战;李隆锋;陈双照;朱凌风;翁洪康	申请（专利权）人：	浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司
主分类号：	G06N3/094	分类号：	G06N3/094;G06N3/092;G06N20/00
代理公司：	杭州九洲专利事务所有限公司 33101	代理人：	张羽振
地址：	325600 浙江省温***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向智能强化学习能源系统对抗训练框架
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向多智能体强化学习能源系统的鲁棒对抗训练框架，其特征在于，包括：

步骤1、构造一个对抗智能体以生成对抗攻击，并建模为对抗性部分可观察的随机博弈系统；

步骤2、固定经过预训练的被害多智能体策略，训练一个最优的确定性对抗策略来产生有界扰动；

步骤3、固定最优的对抗攻击策略，通过对抗性训练提高最优攻击者下受害者策略的鲁棒性。

2.根据权利要求1所述的面向多智能体强化学习能源系统的鲁棒对抗训练框架，其特征在于，步骤1包括：

步骤1.1，将基于多智能体强化学习的综合能源管理系统表述为部分可观察的随机博弈问题，每个智能体控制一个建筑，通过优化所有智能体的策略以使得整个团队的累积奖励最大化:

其中，N是智能体数量，S是环境状态，Aⁱ是第i个智能体的动作空间，是联合动作空间,定义为A＝A¹×…×A^N；P:S×A×S→Δ(S)是任意t时刻给定动作下从状态s_t到下一个t+1时刻状态s_t+1的状态转移概率；是第i个智能体从(s_t,a_t)到下一时刻状态s_t+1的及时反馈奖励；γ是折扣因子；Oⁱ是第i个智能体的观测空间，联合观测空间是{Oⁱ}_i∈N，定义为O＝O¹×…×O^N；Z:S×A→Δ(O)是任意t时刻联合观测o_t∈O在任意动作a_t下，状态s_t的观测概率；

在t时刻，每个智能体i根据观测通过策略选择动作然后，环境根据状态转移概率P移动到下一个状态，s_t+1～P(·|s_t,a_t)；每个智能体i获得奖励和新的局部观测

步骤1.2、在所述综合能源管理系统中引入一个对手智能体，通过生成最强对抗攻击引起模型最差性能，将这个系统建模为对抗性部分可观察的随机博弈问题：

＜W，S，A^adv，{Aⁱ}_i∈N，P，{Rⁱ}_i∈w，R^adv，γ，{Oⁱ}_i∈N，Z＞

其中N是受害智能体数量，S是环境状态，A^adv和R^adv分别是攻击者的行动空间和奖励函数；Aⁱ是第i个受害智能体的动作空间，是联合动作空间,定义为A＝A¹×…×A^N；P:S×A^adv×A×S→Δ(S)是给定动作和A^adv下从状态s_t到下一个时刻状态s_t+1的状态转移概率；是第i个智能体从(s_t,a_t)到下一时刻状态s_t+1的及时反馈奖励；γ是折扣因子；Oⁱ是第i个智能体的观测空间，联合观测空间是{Oⁱ}_i∈N，定义为O＝O¹×…×O^N；Z:S×A→Δ(O)是任意t时刻联合观测o_t∈O在任意动作a_t下，状态s_t的观测概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司，未经浙江浙能乐清发电有限责任公司;浙江浙能数字科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211516697.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种退改权益的处理方法及装置、电子设备、存储介质
下一篇：一种架空线路带电导线修补设备的挂拆装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向多智能体强化学习能源系统的鲁棒对抗训练框架在审

专利文献下载