[发明专利]一种基于联邦强化学习的边缘计算模型训练方法有效
申请号: | 202110620727.X | 申请日: | 2021-06-03 |
公开(公告)号: | CN113364543B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 肖亮;许诗雨;洪思愿;林紫涵;冯玮 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04B17/391 | 分类号: | H04B17/391;H04B17/345;H04W16/22;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 强化 学习 边缘 计算 模型 训练 方法 | ||
1.一种基于联邦强化学习的边缘计算模型训练方法,其特征在于包括以下步骤:
1)检测信号覆盖范围内的移动设备数量,构建卷积神经网络,初始化参数;
2)将各移动设备的参数组成状态向量输入卷积神经网络中,得到选择的移动设备和训练数据量;
3)将全局模型参数和选择的数据量发送给移动设备,接收移动设备的本地模型参数,更新全局模型参数;
4)根据各移动设备的训练时间、目标识别精度和能量消耗作为奖励值,更新状态向量、存储向量;
5)从内存中随机选取存储的向量更新卷积神经网络的权重参数;
6)重复步骤2)~5),直至移动设备反馈的目标识别精度的平均值大于所需的目标识别精度。
2.如权利要求1所述一种基于联邦强化学习的边缘计算模型训练方法,其特征在于在步骤1)中,所述检测信号覆盖范围内的移动设备数量,构建卷积神经网络,初始化参数的具体步骤为:检测信号覆盖范围内移动设备的个数,记为N;量化移动设备i所需训练数据量yi为L个等级,其中,1≤i≤N,yi∈{al|1≤l≤L,al≥0};设置每个时隙的间隔为T秒,记T秒所需达到的目标识别精度为ρ,其中T>0;将移动设备的信道状态划分为G个等级,采用信道估计技术获取N台设备的信道初始状态g=[gi]1≤i≤N;利用反馈信道获取N台移动设备初始的t×l维本地模型参数向量[ωi]1≤i≤N,计算t×l维全局参数模型向量ψ;均匀量化移动设备的训练时间,能量消耗和T秒内目标识别精度为I、E和A个等级,令首个时隙N台移动设备的训练时间,能量消耗和T秒内目标识别精度为0;根据N台移动设备在LN种模型训练方法中接收全局模型参数信号的误码率概率分布,将接收误码率量化为B个等级,记首个时隙T秒内接收全局模型参数信号的误码率为0;构造具有U层卷积层和M层全连接层的卷积神经网络,第n层卷积层包含fn个εn×εn大小的卷积核,其中,1≤n≤U;初始化d×b维的网络权重参数向量θ,折扣因子γ,输入神经网络的序列长度W和效益权重参数μ1、μ2,其中,0<γ≤1,W≥1,μ1>0,μ2>0。
3.如权利要求1所述一种基于联邦强化学习的边缘计算模型训练方法,其特征在于在步骤2)中,所述参数包括信道状态、训练时间、目标识别精度、能量消耗、接收全局模型信号的误码率。
4.如权利要求1所述一种基于联邦强化学习的边缘计算模型训练方法,其特征在于在步骤2)中,所述将各移动设备的参数组成状态向量输入卷积神经网络中,得到选择的移动设备和训练数据量的具体步骤为:在第k时隙,记上一时隙移动设备i的训练时间为信道状态为T秒内接收全局模型参数信号的误码率为T秒内目标识别精度为训练模型所消耗的能量为构建5N维向量和2WN+N维向量η(k)=[s(k-W),y(k-W),...,s(k-1),y(k-1),s(k)];将2WN+N维向量η(k)输入卷积神经网络,输出记为Q(η(k),y(k)|θ),使用ε-greedy算法选择
5.如权利要求1所述一种基于联邦强化学习的边缘计算模型训练方法,其特征在于在步骤3)中,所述将全局模型参数和选择的数据量发送给移动设备,接收移动设备的本地模型参数,更新全局模型参数的具体方法为:
(1)发送所需训练数据量和上一时隙全局模型参数ψ(k-1)给移动设备i进行目标识别模型训练;
(2)接收移动设备i的本地模型参数向量计算全局模型参数ψ:
更新全局模型参数ψ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110620727.X/1.html,转载请声明来源钻瓜专利网。