[发明专利]一种基于元学习的不平衡数据联邦学习方法和系统在审
| 申请号: | 202310452512.0 | 申请日: | 2023-04-25 |
| 公开(公告)号: | CN116628543A | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 卢杨;钱品馨;黄刚;华炜;王菡子 | 申请(专利权)人: | 之江实验室;厦门大学 |
| 主分类号: | G06F18/24 | 分类号: | G06F18/24;H04L67/01;G06N3/098;G06F18/214 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 学习 不平衡 数据 联邦 学习方法 系统 | ||
本发明公开了一种基于元学习的不平衡数据联邦学习方法和系统,包括:客户端接收服务端下发的赋权模型参数和全局模型参数,利用本地数据和赋权模型参数得到用作校正数据不平衡的权重,基于权重、本地数据以及全局模型参数更新本地模型参数,其中,赋权模型参数包括类赋权模型参数、样本赋权模型参数,对应的权重包括类权重和样本权重;服务端接收客户端上传的本地模型参数并聚合得到全局模型参数,利用元数据、赋权模型参数以及聚合的全局模型参数得到元全局模型参数,利用元全局模型参数和元数据来更新赋权模型参数,更新的赋权模型参数和聚合的全局模型参数下发至客户端进行下一轮联邦学习。
技术领域
本发明属于联邦学习领域,具体涉及一种基于元学习的不平衡数据联邦学习方法和系统。
背景技术
近年来,深度学习技术在人工智能中发挥了重要作用,它的成功很大程度上依赖于大量的训练数据。但是现实生活中,绝大多数企业都存在数据孤岛的问题。联邦学习能够在保证数据隐私安全及合规合法的基础上进行跨组织联合建模,提升人工智能模型的效果,目前广泛用于人工智能研究方向。联邦学习中一个挑战是客户端之间的数据分布是不同的,即数据异构。同时,在实际场景中,参与联邦训练的全局数据分布总是呈现极度不平衡的情况,这会导致模型只关注样本数量多的多数类信息,而不能捕捉样本数量少的少数类信息。因此,研究联邦学习中的不平衡分布与异构数据问题具有重要意义。
现有解决联邦学习异构数据问题的方法主要可以分为在客户端侧处理和服务器侧处理的方法。第一类方法的总体思路是在客户端侧利用全局模型的知识去约束本地模型的更新,从而限制本地模型的多样性,防止它们过度拟合到本地数据。第二类方法的总体思路主要是在服务器侧通过某种特定的聚合策略来处理本地模型从而缓解数据异构的问题。
然而,上述方法只考虑了联邦学习中平衡数据分布下的异构数据的问题,在真实的应用场景中,全局数据分布往往呈现极度不平衡的情况。此时,若没有考虑到数据不平衡分布的问题,利用上述方法训练得到的全局模型往往对于样本量比较少的少数类不能有很好地表达。现有很多方法被提出解决数据不平衡的问题,主要可以分为重采样、重赋权和表征学习的三类方法。
然而,上述解决数据不平衡问题的方法中,其具体的不平衡数据分布是已知的,通常是以一种数据集中训练的方式进行训练的。所以在解决联邦学习中的数据不平衡问题时,这些方法并不适用。
为了解决联邦学习框架下的数据不平衡问题,Duan,M等人(Duan,M.;Liu,D.;Chen,X.;Liu,R.;Tan,Y.;and Liang,L.2020.Self-balancing federated learning withglobal imbalanced data in mobile systems.IEEE Transactions on Parallel andDistributed Systems,32(1):59–71.)提出了Astraea方法来处理本地和全局不平衡的问题。它利用一些Mediators以互补的不平衡比率聚合客户,使聚合的客户端相对平衡。然后,由这些Mediators聚合得到全局模型。但是,Astraea方法假设本地不平衡比例是公开的,因此Mediators可以利用此信息来匹配互补客户。然而,有时本地不平衡比例也属于敏感信息,因为它包含类分布信息。公开本地不平衡率可能会违反联邦学习的原则。为了解决这个问题,Wang,L等人(Wang,L.;Xu,S.;Wang,X.;and Zhu,Q.2021a.Addressing classimbalance in federated learning.In AAAI Conference on ArtificialIntelligence,10165–10173.)提出Ratio loss方法,通过模型梯度估计全局类分布。然后将估计的比率纳入本地模型优化。然而,这种方法的一个缺点是它只有在所有客户端都具有相似的类分布时才能很好地工作。
发明内容
鉴于上述,本发明的目的是提供一种基于元学习的不平衡数据联邦学习方法和系统,能够在数据异构和分布不平衡的场景中提升全局模型的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;厦门大学,未经之江实验室;厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310452512.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





