[发明专利]空地网络中由数字孪生驱动的联邦学习的激励方法有效
| 申请号: | 202011045504.7 | 申请日: | 2020-09-28 |
| 公开(公告)号: | CN112367109B | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 徐宁;张芙蓉;孙文;张海宾;张彦 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | H04B7/185 | 分类号: | H04B7/185;G06N20/00 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
| 地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 空地 网络 数字 孪生 驱动 联邦 学习 激励 方法 | ||
1.空地网络中由数字孪生驱动的联邦学习的激励方法,其特征在于:
A.数字孪生无人机辅助地面网络模型
考虑了一个由无人机、客户端和数字孪生体组成的无人机辅助地面网络场景,系统中包含了地面设备和无人机两类数字孪生体,使用集合N={1,2,...,N}表示网络中的客户端,对于客户端i,其在时间t的数字孪生DTic表示为
DTic(t)={Fit(w),bi(t),fi(t)} (1)
w是客户端i的当前训练参数,Fit(w)表示客户端i的当前训练状态,bi(t)表示丢包率,fi(t)是设备在时间t时的CPU频率,引入丢包率误差和CPU频率误差来校正数字孪生模型的误差,分别测量数字孪生体在通信环境和计算能力下的误差,因此对于客户端i,校准的数字孪生是
输出是更新的信誉值,即数字孪生根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值;
对于无人机j,其数字孪生是
其中P(t)是其覆盖区域内客户端的信誉分布,是客户端本地更新和全局更新之间的误差集,在无人机辅助的地面网络中,设备在硬件、网络连接和计算能力方面是异质的,为了简化统计异质性问题,假设每个客户端的本地数据集是独立的,且分布相同;
B.联邦学习过程
每个客户端i本地数据集的大小被定义为xi,即客户端i具有xi数据样本参与训练,参与训练的所有数据集的总大小是首先,无人机作为任务发布者,发布全局模型ω,参与联邦学习的所有客户端将从服务器下载全局模型,然后,每个客户端使用自己的私有数据集来训练模型并获得本地模型更新,首先,上传新的权重或梯度到服务器,对于客户端i,其损失函数为
其中fj(ω)是客户端i的本地数据集中的数据样本j上的损失函数,联邦学习通过最小化每个客户端i在时间t时的局部损失函数Fit(ω)的加权平均值来优化全局损失函数F(ω),联邦学习中的全局模型更新表示为
和
无人机作为聚合器聚合这些参数更新全局模型,供客户端下载并开始新一轮训练,然后继续迭代,直到全局损失函数收敛,空地网络中的联邦学习的具体过程如下:在迭代开始时,所有参与的客户端从聚合器获得相同的机器学习模型然后每个客户端i根据自己的本地数据训练模型,并更新本地模型得到模型表示为
其中λ0是学习步骤,接下来客户端i将本地更新的模型上传到聚合器,聚合器将收集参与客户端上传的所有参数并进行聚合,以更新全局模型,如
最后,参与的客户端从聚合器获得更新的全局模型并进行新一轮的本地模型更新,并且所有交互记录都将存储在聚合器中;
C.贡献度量
设计一个公平的贡献衡量方法以鼓励合适的客户端参与联邦学习,用表示客户端i的参与轮次数,并主要通过其参与度来衡量客户端i的贡献,客户端参与轮次数等于客户端参与的全局模型更新轮次数,通过每个客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量,计算了本地模型更新和全局模型更新之间的误差,具体计算方法如下:
其中||·||2是欧几里德范数,di越小,客户端i上传参数的质量越高,聚合器会在每个时间段内更新客户端i的值,作为对客户端i提交的参数进行质量评估的依据,还引入了信誉方法,用来表示每个客户端的信誉值,当信誉值pi低于设定的阈值时,客户端i将失去参与模型训练的资格;
D.信誉价值模型
综合考虑客户端的通信能力、计算能力、训练结果的质量以及数字孪生的误差因素,建立了如下基于主观逻辑的信誉值模型:
式中表示全局更新的轮次数,表示节点i在第次全局更新期间的通信能力,是由(9)计算的学习质量,其中和分别是数字孪生体在通信和计算能力方面的误差,f(·)是对应于DTi误差和模型更新的信誉值转换函数
其中δ是预设误差阈值,是全局更新的总数,信誉值映射到范围(0,a);
基于以上模型,针对不同规模的空地网络,分别设计了由数据孪生驱动的静态联邦学习激励方法和动态联邦学习激励方法,具体如下:
对于地面设备在无人机的覆盖范围内的小型空地网络,无人机作为聚合器执行联邦学习任务,为了激励高质量设备参与训练,设计了基于Stackelberg博弈的静态激励方法,其中无人机的数字孪生体是领导者,客户端是追随者;
首先,聚合器在发布任务时提供一个奖励R,然后网络中的客户端根据奖励和自己的训练成本来决定自己的参与轮次数,代表客户端i的决策,即客户端参与全局更新的轮次数,如果则表示客户端不参与,代表所有客户端的决策,表示除了客户端i的其他客户端的训练决策,每个客户端完成一轮全局更新所耗费的计算成本表示为每轮通信成本为因此客户端i的效用函数定义为
即奖励减去成本;
聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
其中α0是保证效用在最优R下大于或等于0的系统参数;
对于空地网络中的联邦学习场景,聚合器和客户端都尽其所能做出最优决策,聚合器调整其奖励R,而客户端i,调整其参与轮次为了最大化的效用,分别表示为
对于规模庞大的空地网络,设计了一种动态激励方法来选择最优客户端参与联邦学习,每一轮的全局更新都建模为一轮Stackelberg博弈,聚合器决定其奖励,动态选择客户端设备参与,客户端决定其本地训练轮次数,每轮全局更新完成后,客户端的信誉值将被更新;
在动态激励中,使用来表示客户端i在第轮全局更新期间的信誉值,使用来表示第次全局更新时的客户端集合,使用来表示动态激励中客户端完成一轮本地训练的计算成本,表示通信成本,ti表示客户端i在一轮全局更新中进行的本地训练的轮次数代表所有客户端的训练策略,表示除了客户端i之外的所有客户端的训练策略,类似地,客户端i的效用定义为
其中表示在第次全局更新开始之前由无人机确定的奖励,聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
其中η0是保证效用在最优下大于或等于0的系统参数,因此,对于客户端和无人机,目标如下:
注意,最终无人机的最优总奖励R*应表示为
其中是全局更新的轮次数,动态激励中每一轮的激励更新实现了激励粒度的细化,使激励效果下沉到每一轮全局更新中客户端的本地训练之中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011045504.7/1.html,转载请声明来源钻瓜专利网。





