[发明专利]一种联邦学习场景中高效的贡献评估方法有效
| 申请号: | 202011465470.7 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112506753B | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 张兰;李向阳;王俊豪 | 申请(专利权)人: | 德清阿尔法创新研究院 |
| 主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/36;G06N20/00 |
| 代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
| 地址: | 313200 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 联邦 学习 场景 高效 贡献 评估 方法 | ||
一种联邦学习场景中高效的贡献评估方法,它根据训练日志计算权重:服务器使用联邦学习的训练日志来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,本发明通过用户在模型聚合时的权重来计算贡献,极大降低了计算开销,将指数级开销降低为线性开销,并且能够加快模型收敛,提高性能;2)所使用的训练日志是联邦学习所固有的信息,没有额外的隐私保护成本。
技术领域
本发明涉及的联邦学习场景中高效的贡献评估,属于机器学习和数据分析领域。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在2016年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习的一大特点就是它较好地解决了数据孤岛问题,并且在训练过程后,每个用户对模型的贡献能够记录在永久数据记录机制,实际效果会在实际应用中表现出来。随着人工智能和移动计算的飞速发展,很多数据都是众包得到,每个用户提供数据的质量和数量大不相同,如果根据用户对训练模型的贡献对各个用户进行反馈和激励,则能够激励用户提供更多的数据和更多的用户参与到联邦学习中,促人工智能的发展。
针对机器学习的和联邦学习的贡献评估已有一系列工作,但他们都不适用于现实联邦学习系统,相关的技术包括博弈论和机器学习可解释性研究等,他们旨在通过分析数据样本对模型训练效果的影响来确定其贡献。现有工作通常使用沙普利值来计算各个训练样本对模型训练的贡献,但这不能直接用于联邦系统中,主要原因是计算沙普利值需要指数级的计算和通信开销,这在现实的联邦学习系统中通常不可能实现。
发明内容
本发明的目的在于克服现有技术的不足,高效的评估联邦学习系统中每个用户对联邦学习系统的贡献,并并且能够加快模型训练的收敛,提升模型的性能,本发明的主要步骤为:主要步骤如下:
1)根据训练日志计算权重:服务器使用联邦学习的训练日志(用户的模型更新参数t∈[T],n∈[N],t表示训练轮数,n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中,第t+1个epoch中,服务器聚合模型的形式化为:又可以写为:其中θt+1表示第t+1轮的全局模型,θt为第t个epoch的全局模型,η为学习率。由于服务器不能访问到各个用户的训练数据,并且数据很多都是众包得到,各个用户的数据质量和分布情况大不相同,所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能,这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中,服务器倾向于降低全局模型在测试数据集的损失函数,即:argminlossv(θ),其中,lossv(θ)表示模型θ在测试数据集(validation set)的损失函数。
要求解最优的权重最直观的方法是使用梯度下降,即:
其中,
在求得后,使用作为用户在模型聚合时的权重。
2)根据权重计算贡献:在上一步中,已经求得各个用户在模型聚合时的权重。使用权重作为沙普利值的效用函数,即可在线性时间内计算得到沙普利值,避免指数级的开销。计算用户φi的沙普利值:
即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011465470.7/2.html,转载请声明来源钻瓜专利网。





