[发明专利]一种园区分布式能源调控信息新鲜度保障方法及系统有效

申请号：	202210287027.8	申请日：	2022-03-22
公开（公告）号：	CN114626306B	公开（公告）日：	2023-01-24
发明（设计）人：	廖海君;周振宇;王雅倩;卢文冰;杨阳	申请（专利权）人：	华北电力大学;北京快电科技有限公司
主分类号：	G06F30/27	分类号：	G06F30/27;G06N3/045;G06N3/08;G06Q10/0631;G06Q50/06;G06F111/04;G06F111/06;G06F113/04
代理公司：	成都方圆聿联专利代理事务所(普通合伙) 51241	代理人：	李鹏
地址：	102206 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种区分能源调控信息新鲜保障方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种园区分布式能源调控信息新鲜度保障方法，利用一种园区分布式能源调控信息新鲜度保障系统，所述的一种园区分布式能源调控信息新鲜度保障系统，从下至上包括数据层、网络层、控制层和业务层；

其中，数据层，通过在电气设备上部署物联终端，为园区分布式能源调控决策模型训练提供样本数据和本地模型；

网络层，包含多种通信媒介，为数据层和控制层的交互提供通道；

控制层，通过调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性；

业务层，包括能源调控业务；

其特征在于，步骤包括：

S1园区分布式能源调控决策模型训练；

S2对分布式能源调控决策模型训练面临的调控信息新鲜度保障问题进行建模；

S3基于调控信息新鲜度感知的电力至简物联网通信与计算资源协同优化算法IDEAL设计；

其中，调控信息新鲜度问题建模为通过优化分布式能源调控决策模型训练过程中的批量规模、多模态信道选择从而在保障调控信息新鲜度的情况下最小化能源调控决策模型的损失函数；

所提出的IDEAL算法承载于园区分布式能源调控信息新鲜度保障系统控制层的控制器中；控制器通过在分布式能源调控决策模型训练中执行该IDEAL算法动态优化批量规模和多模态信道选择，能够实现调控信息新鲜度长期保障；

IDEAL算法结构，包括主网络、目标网络、经验池、以多模态信道分配冲突解决模块、调控信息新鲜度赤字更新模块；

IDEAL算法的执行主体为控制器；针对每个终端n，控制器构造了两个深度Q网络DQN，分别为用于优化决策的主网络和用于辅助主网络训练的目标网络其中，目标网络与主网络具有相同神经网络结构，通过采用更长的目标网络更新周期，使主网络在一段时间内的目标值保持相对固定，提升学习稳定性；控制器构造经验池用于存储经验数据；在此基础上，IDEAL采用经验回放机制，通过周期性随机采样部分经验数据训练DQN；

所述的IDEAL算法执行流程，包括三个阶段，分别为初始化、动作选择及多模态信道分配冲突解决以及学习；

1)初始化阶段：初始化G_n(t)＝0，H(t)＝0，α_n,j,t＝0，β_n,t＝0，G_n(t)表示第t次迭代后终端n的能耗与能量预算E_n,max/T之间的偏差；

H(t)表示第t次迭代后调控信息新鲜度与信息新鲜度约束h_min之间的偏差；

α_n,j,t∈{0,1}为信道分配变量；其中，α_n,j,t＝1表示在第t次迭代中控制器分配信道j给终端n用于上传本地模型，否则α_n,j,t＝0；

β_n,t为批量规模，即终端n在第t次迭代中用于本地模型训练的样本数量；

N个物联终端集合表示为信道集合表示为其中j＝1,…,J₁为5G信道,j＝J₁+1,…,J₁+J₂为WLAN信道，j＝J₁+J₂+1,…,J为PLC信道；T次迭代，集合表示为此处的意思是对于所有物联终端、信道以及迭代，将其能耗偏差G_n(t)、调控信息新鲜度偏差H(t)以及信道分配变量都初始化为0；

定义未被分配信道的终端集合为并初始化定义终端的可分配信道集合为并初始化

2)动作选择及多模态信道分配冲突解决阶段：

首先，控制器基于ε-贪婪算法为每个终端选择动作，以终端n为例，S_t为状态空间，A_n,t为执行动作空间，为主网络参数，控制器基于终端n主网络参数估计的Q值反映了在状态空间S_t下执行动作空间A_n,t对应的价值，以概率ε随机选择动作，以概率1-ε选择Q值最大的动作

其次，当存在信道分配冲突时，同时为终端n和m分配信道j且控制器通过比较终端n和m的Q值，将信道j分配给Q值较大的终端n并拒绝终端m；随后，控制器将终端n移出未被分配信道的终端集合，即并设置被拒绝终端m的Q值为其中a_m,t为终端m动作空间A_m,t中对应于信道j的动作集合，表示为a_m，t＝{A_m，t(j，1)，A_m，t(j，2)，…，A_m，t(j，|Δ_n|)；其中|Δ_n|表示终端n本地数据集的大小；基于更新的Q值，重复上述动作选择及多模态信道分配冲突解决过程直到所有终端被分配信道；

最后，控制器下发信道分配和批量规模决策，终端按照决策执行本地模型训练和本地模型上传，并将能耗信息E_n,t上传至控制器；

3)学习阶段：在学习阶段，控制器通过计算终端执行动作后的回报函数来更新DQN网络参数，以提高DQN对状态-动作价值的拟合精度，使DQN输出最佳策略，实现信道分配和批量规模的优化，提高全局模型的精度，保障调控信息新鲜度，降低终端能耗；

所述的学习阶段，包括以下步骤：首先，基于终端上传的能耗信息，控制器更新终端能耗赤字虚拟队列G_n(t+1)；同时，控制器根据所收到本地模型时间戳、模型下发时间以及终端n的本地模型所经历的时延、最后一个终端本地模型所经历时延、本地模型信息年龄的倒数计算获得第t次迭代的信息新鲜度，并更新调控信息新鲜度赤字虚拟队列H(t+1)；控制器计算回报函数当调控信息新鲜度与规定约束偏离严重时，H(t)逐渐增加，导致回报函数值降低，迫使控制器调整信道分配和批量规模决策以降低调控信息年龄，提高调控信息新鲜度，保证控制器所接收本地终端模型的时效性，从而实现调控信息新鲜度感知，提高控制器分布式能源调控决策的准确性和可靠性；

其次，控制器生成一个样本用于更新回放经验池Γ_n,t，并转移至状态S_t+1；从回放经验池中随机抽取部分样本构成为中的样本数量；DQN损失函数计算为

其中

其中，λ为折扣因子；

最后，基于υ_n，更新主网络参数如下

其中，κ为学习步长；每T₀次迭代更新目标网络为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华北电力大学;北京快电科技有限公司，未经华北电力大学;北京快电科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210287027.8/1.html，转载请声明来源钻瓜专利网。