[发明专利]一种基于联邦学习的噪声标签修正方法有效
申请号: | 202110666751.7 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113379071B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 陈益强;曾碧霄;杨晓东;于汉超 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 噪声 标签 修正 方法 | ||
本发明提供一种基于联邦学习的噪声标签修正方法,包括:将客户端根据本地训练数据更新的本地模型参数和对应的样本数据量发送给服务端;获取服务端根据客户端以及其他客户端更新的本地模型参数和对应的样本数据量计算的全局模型参数;由客户端根据全局模型参数和本地训练数据,计算指示不同类别的平均预测概率的多个本地类基准并发送给服务端;获取服务端根据多个本地类基准计算的多个全局类基准,并基于全局模型参数和全局类基准对客户端的本地训练数据进行噪声标签修正。将该修正方法应用于联邦学习系统中,实现了信息增强,减少了数据的损失以及对额外参照集的依赖,有效地提高了联邦学习训练结构测试的准确率。
技术领域
本发明涉及的是分布式机器学习领域,具体涉及一种基于联邦学习的噪声标签修正方法。
背景技术
随着分布式机器学习和大数据分析的发展,联邦学习作为一种新型的分布式机器学习框架,满足了多个客户端(机构)在数据安全的要求下进行模型训练。在模型训练过程中,服务端和客户端之间仅交换模型参数,各客户端无需上传任何原始数据。在实际的联邦学习场景下,多个客户端的加入虽然带来了更多的知识,但同时也增加了数据噪声的风险,如多分类任务中的标签噪声问题。在实际操作中,标签噪声的问题难以避免,比如众包标定的电商货品图片,或者是医学生、非专家标定的医学影像,它们的类别标签往往依赖于操作人员的水平以及标定过程的准确性。这些现实存在的标签噪声往往会影响模型训练的准确性,除此之外,由于联邦学习规定服务端对原始数据不可见,检测标签噪声进而对其进行修正变得更具挑战。
现有研究多认为具有错误标签的样本是总体数据中的异常点,常基于服务端提供的一个额外的干净数据集来生成一个参照模型,用该参照模型来度量本地数据和服务端标准数据的差异,从而进行数据的筛选或者降低一部分样本参与训练的权重。
现有的解决标签噪声问题的技术,往往高度依赖于一个完全干净的参照数据集,这样的数据集要求标注信息完全准确,获取数据的开销极大。当参照数据集规模有限时,其类别分布和总体分布不一定一致,对于多分类任务来说其参考价值也会大打折扣。另外,现有的技术侧重于选择性地降低噪声数据的参与度,本质上是一种损失信息的方式。
在进行联邦学习中的标签噪声研究时,发现现有技术中的信息损失问题是由于没有对噪声标签进行修正而导致的。标签修正往往需要模型达到一定的预测水平,由于服务端并不总能提供一个理想的干净参照集,通过参照模型进行数据预筛选一类的方法在现实联邦场景中很可能失效,因此在模型达到稳定的预测水平之前的这一动态过程中,各客户端的数据需要遵循一个噪声留出机制以支持动态过程中的噪声学习,并快速提升模型性能,从而实现最终的修正。而关于现有技术的参照集依赖问题,本质上是忽略了联邦学习自身的合作特性所导致的。现有的技术仍处于传统机器学习方法中的依赖参照集模式,没有将重点转移到联邦学习的“联邦”优势上来,从而不得不依托于一个额外的参照数据集。
因此,亟需一种既能减少信息损失,又能不依赖额外参照集的联邦学习系统。
发明内容
因此,本发明的目的在于克服上述现有技术的存在的信息损失问题和参照集依赖等缺陷,提供一种基于联邦学习的噪声标签修正方法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种基于联邦学习的噪声标签修正方法,包括:将客户端根据本地训练数据更新的本地模型参数和对应的样本数据量发送给服务端;获取服务端根据所述客户端以及其他客户端更新的本地模型参数和对应的样本数据量计算的全局模型参数;由所述客户端根据所述全局模型参数和本地训练数据,计算指示不同类别的平均预测概率的多个本地类基准并发送给服务端;获取服务端根据所述多个本地类基准计算的多个全局类基准,并基于所述全局模型参数和全局类基准对所述客户端的本地训练数据进行噪声标签修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110666751.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高回填式搅拌摩擦点焊焊接效率的方法
- 下一篇:一种环保棕麻垫生产工艺