[发明专利]一种基于安全模型强化学习的数据中心制冷控制算法有效
申请号: | 202111113046.0 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113848711B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 万剑雄;段彦夺;李雷孝;云培研 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 010052 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 安全 模型 强化 学习 数据中心 制冷 控制 算法 | ||
1.一种基于安全模型强化学习的数据中心制冷控制算法,其特征在于:包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型估计,同时系统动力学模型Mθ和风险模型分别是参数化为θ和的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
所述Δ是一个常量,并且Δ>0,所述为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数为了产生一个安全探索行为,首先形成一个动作集合由K个动作组成,所述其中中k∈{1,...,K},所述是在行为空间中均匀采样得到的,然后将行为与概率相关联,公式定义如下:
所述为概率;
最终的安全探索行为将使用分布从中采样得到,并且具有较高风险的行为将以较小的概率抽样,Δ控制较安全的行为的优先次序:采用较安全行动的概率随Δ的减小而增加;
S2、通过ε-greedy策略形成执行行为;
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
所述ω表示探索概率,在系统中∈=0.1表示系统以0.1的概率产生探索行为并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;所述at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,所述策略网络πθ输出当前系统模型的最佳安全动作,所述ε-greedy策略允许对行为空间进行安全感知的随机探索;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
所述S3中训练系统模型的方法为:在执行行为at之后,环境进入到下一个状态zt+1,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,用于训练系统动力学模型和风险模型;最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
所述Rt表示空调的能耗,所述Zt表示t时刻数据中心的温度状态,所述Zt+1表示t+1时刻数据中心的温度状态;所述表示从经验回放池D中抽取大小为的经验样本;
同样风险模型通过以下损失函数进行更新:
所述Zt表示t时刻数据中心的温度状态;
所述w(zt,at)定义如下:
S4、通过调用Plan函数实现学习最优策略和值函数;
所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为:通过从经验回放池均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,将最优轨迹和第一个状态-动作对分别存储在和中,策略网络πφ通过最小化行为克隆损失函数在经验回放池上训练,策略网络的损失函数定义如下:
所述a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习所述专家行为;
通过设置损失函数对模拟经验中遇到的状态进行价值网络的训练,损失函数定义如下:
所述x表示的轨迹,所述Dπ表示策略网络用于训练的经验回放池;所述H为初始状态滚动的步数;所述DV表示模拟经验;
最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,所述Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划;
S5、通过MPCS函数解决MPC问题;
所述S5中通过MPCS函数解决MPC问题的方法为:所述MPCS函数通过更新H步高斯分布Nt(μt,Σt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,则将其加入到精英集合Λ中,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
所述和分别为精英集合分布参数,所述α为学习率,随着CEM迭代次数的增加,所述高斯分布Nt趋于最优分布,从该分布中获得最优行为序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111113046.0/1.html,转载请声明来源钻瓜专利网。