[发明专利]一种园区分布式能源调控信息新鲜度保障方法及系统有效
| 申请号: | 202210287027.8 | 申请日: | 2022-03-22 |
| 公开(公告)号: | CN114626306B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 廖海君;周振宇;王雅倩;卢文冰;杨阳 | 申请(专利权)人: | 华北电力大学;北京快电科技有限公司 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/045;G06N3/08;G06Q10/0631;G06Q50/06;G06F111/04;G06F111/06;G06F113/04 |
| 代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 李鹏 |
| 地址: | 102206 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 区分 能源 调控 信息 新鲜 保障 方法 系统 | ||
1.一种园区分布式能源调控信息新鲜度保障方法,利用一种园区分布式能源调控信息新鲜度保障系统,所述的一种园区分布式能源调控信息新鲜度保障系统,从下至上包括数据层、网络层、控制层和业务层;
其中,数据层,通过在电气设备上部署物联终端,为园区分布式能源调控决策模型训练提供样本数据和本地模型;
网络层,包含多种通信媒介,为数据层和控制层的交互提供通道;
控制层,通过调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性;
业务层,包括能源调控业务;
其特征在于,步骤包括:
S1园区分布式能源调控决策模型训练;
S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模;
S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计;
其中,调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数;
所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中;控制器通过在分布式能源调控决策模型训练中执行该IDEAL算法动态优化批量规模和多模态信道选择,能够实现调控信息新鲜度长期保障;
IDEAL算法结构,包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块;
IDEAL算法的执行主体为控制器;针对每个终端n,控制器构造了两个深度Q网络DQN,分别为用于优化决策的主网络和用于辅助主网络训练的目标网络其中,目标网络与主网络具有相同神经网络结构,通过采用更长的目标网络更新周期,使主网络在一段时间内的目标值保持相对固定,提升学习稳定性;控制器构造经验池用于存储经验数据;在此基础上,IDEAL采用经验回放机制,通过周期性随机采样部分经验数据训练DQN;
所述的IDEAL算法执行流程,包括三个阶段,分别为初始化、动作选择及多模态信道分配冲突解决以及学习;
1)初始化阶段:初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,Gn(t)表示第t次迭代后终端n的能耗与能量预算En,max/T之间的偏差;
H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束hmin之间的偏差;
αn,j,t∈{0,1}为信道分配变量;其中,αn,j,t=1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型,否则αn,j,t=0;
βn,t为批量规模,即终端n在第t次迭代中用于本地模型训练的样本数量;
N个物联终端集合表示为信道集合表示为其中j=1,…,J1为5G信道,j=J1+1,…,J1+J2为WLAN信道,j=J1+J2+1,…,J为PLC信道;T次迭代,集合表示为此处的意思是对于所有物联终端、信道以及迭代,将其能耗偏差Gn(t)、调控信息新鲜度偏差H(t)以及信道分配变量都初始化为0;
定义未被分配信道的终端集合为并初始化定义终端的可分配信道集合为并初始化
2)动作选择及多模态信道分配冲突解决阶段:
首先,控制器基于ε-贪婪算法为每个终端选择动作,以终端n为例,St为状态空间,An,t为执行动作空间,为主网络参数,控制器基于终端n主网络参数估计的Q值反映了在状态空间St下执行动作空间An,t对应的价值,以概率ε随机选择动作,以概率1-ε选择Q值最大的动作
其次,当存在信道分配冲突时,同时为终端n和m分配信道j且控制器通过比较终端n和m的Q值,将信道j分配给Q值较大的终端n并拒绝终端m;随后,控制器将终端n移出未被分配信道的终端集合,即并设置被拒绝终端m的Q值为其中am,t为终端m动作空间Am,t中对应于信道j的动作集合,表示为am,t={Am,t(j,1),Am,t(j,2),…,Am,t(j,|Δn|);其中|Δn|表示终端n本地数据集的大小;基于更新的Q值,重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道;
最后,控制器下发信道分配和批量规模决策,终端按照决策执行本地模型训练和本地模型上传,并将能耗信息En,t上传至控制器;
3)学习阶段:在学习阶段,控制器通过计算终端执行动作后的回报函数来更新DQN网络参数,以提高DQN对状态-动作价值的拟合精度,使DQN输出最佳策略,实现信道分配和批量规模的优化,提高全局模型的精度,保障调控信息新鲜度,降低终端能耗;
所述的学习阶段,包括以下步骤:首先,基于终端上传的能耗信息,控制器更新终端能耗赤字虚拟队列Gn(t+1);同时,控制器根据所收到本地模型时间戳、模型下发时间以及终端n的本地模型所经历的时延、最后一个终端本地模型所经历时延、本地模型信息年龄的倒数计算获得第t次迭代的信息新鲜度,并更新调控信息新鲜度赤字虚拟队列H(t+1);控制器计算回报函数当调控信息新鲜度与规定约束偏离严重时,H(t)逐渐增加,导致回报函数值降低,迫使控制器调整信道分配和批量规模决策以降低调控信息年龄,提高调控信息新鲜度,保证控制器所接收本地终端模型的时效性,从而实现调控信息新鲜度感知,提高控制器分布式能源调控决策的准确性和可靠性;
其次,控制器生成一个样本用于更新回放经验池Γn,t,并转移至状态St+1;从回放经验池中随机抽取部分样本构成为中的样本数量;DQN损失函数计算为
其中
其中,λ为折扣因子;
最后,基于υn,更新主网络参数如下
其中,κ为学习步长;每T0次迭代更新目标网络为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学;北京快电科技有限公司,未经华北电力大学;北京快电科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210287027.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





