[发明专利]一种基于公平联邦学习算法的数据分类方法及系统在审
申请号: | 202111478600.5 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114298156A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 彭长根;杨秀清;牛坤;丁红发;李雪松 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 赵兴华 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 公平 联邦 学习 算法 数据 分类 方法 系统 | ||
本发明提出了一种基于公平联邦学习算法的数据分类方法及系统,利用各用户端拥有的本地数据集,基于熵权法确定得到各用户端的数据质量分数,基于用户端的数据数量和用户端的数据质量两方面定义聚合权重,根据考虑了数据数量和数据质量两方面的聚合权重对全局模型进行更新,解决了传统的联邦学习中未考虑权重分配或仅考虑了用户端的数据数量一方面,对各用户的聚合权重分配不公平的问题,本发明的方案相对于传统的联邦学习方案,对于参与训练的各用户端更加公平,更能够促进数据质量分数高的用户端加入到联邦学习中来。
技术领域
本发明涉及数据隐私技术领域,特别是涉及一种基于公平联邦学习算法的数据分类方法及系统。
背景技术
人工智能的发展需要大量的数据,并且需要许多高质量的数据,但是通常在数据使用的过程中,面临着各方面的约束。首先是面临各种网络安全法或数据保护条例的约束;其次是各企业和机构之间的利益关系,导致数据在使用的过程中受到约束;再者是个人也在不断增强隐私保护意识,这些方面均不利于数据共享,使得数据共享成为难题,企业与企业之间、机构与机构之间存在“数据孤岛”的问题。因此,联邦学习应运而生,用于解决机器学习中的数据孤岛问题。联邦学习自2017年Google提出,受到学者们的广泛关注。如无线通信与边缘计算、智慧医疗、环境保护等领域。
在传统的联邦学习训练过程中,在聚合时每一个用户的聚合权重是一样的,或者采用用户数据数量占总数据量的比重作为聚合时的权重,这样的方式对数据量多的用户有优势,但是对有些数据量多但其数据质量不好的用户,给该用户分配更多的权重会影响全局模型的训练,即让其他用户的计算代价更高,即其他用户在本地进行模型训练迭代需要的迭代次数和服务器与各用户之间的迭代次数更高。
针对以上问题,本发明在联邦学习训练过程中考虑了用户数据质量对模型训练的影响,提出了一种基于公平联邦学习算法的数据分类方法及系统。
发明内容
本发明的目的是提供一种基于公平联邦学习算法的数据分类方法及系统,解决传统的联邦学习训练过程中,对各用户的权重分配不公平的问题。
为实现上述目的,本发明提供了一种基于公平联邦学习算法的数据分类方法,包括以下步骤:
基于熵权法,根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数;所述本地数据集中包含若干个样本数据和每个样本数据的属性;
初始化全局模型,并将初始化后的所述全局模型参数发送给各用户端;
根据所述全局模型参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数;
根据各用户端的数据数量和各用户端的数据质量分数,确定各用户端的聚合权重;
根据各用户端的聚合权重和各用户端的本地模型参数,确定并更新所述全局模型参数;
判断是否达到结束迭代条件;
若否,则跳转到所述“根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数”;
若是,则结束训练,全局模型根据训练好的全局模型参数进行数据分类。
可选地,基于熵权法,根据用户端中每个属性的熵权及每个属性中数据的数量确定得到各用户端的数据质量分数,具体包括:
对各用户端拥有的本地数据集进行预处理;
根据预处理后的本地数据集,确定各用户端在本地数据集中每个样本出现的概率;
根据每个样本出现的概率确定各用户端中每个属性的信息熵;
根据每个属性的信息熵确定各用户端中每个属性的熵权;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111478600.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于有向无环图业务流程恢复的方法及装置
- 下一篇:仿真测试系统和方法