[发明专利]一种基于公平联邦学习算法的数据分类方法及系统在审

申请号：	202111478600.5	申请日：	2021-12-06
公开（公告）号：	CN114298156A	公开（公告）日：	2022-04-08
发明（设计）人：	彭长根;杨秀清;牛坤;丁红发;李雪松	申请（专利权）人：	贵州大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	北京高沃律师事务所 11569	代理人：	赵兴华
地址：	550025 贵州省贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于公平联邦学习算法数据分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于公平联邦学习算法的数据分类方法及系统，利用各用户端拥有的本地数据集，基于熵权法确定得到各用户端的数据质量分数，基于用户端的数据数量和用户端的数据质量两方面定义聚合权重，根据考虑了数据数量和数据质量两方面的聚合权重对全局模型进行更新，解决了传统的联邦学习中未考虑权重分配或仅考虑了用户端的数据数量一方面，对各用户的聚合权重分配不公平的问题，本发明的方案相对于传统的联邦学习方案，对于参与训练的各用户端更加公平，更能够促进数据质量分数高的用户端加入到联邦学习中来。

技术领域

本发明涉及数据隐私技术领域，特别是涉及一种基于公平联邦学习算法的数据分类方法及系统。

背景技术

人工智能的发展需要大量的数据，并且需要许多高质量的数据，但是通常在数据使用的过程中，面临着各方面的约束。首先是面临各种网络安全法或数据保护条例的约束；其次是各企业和机构之间的利益关系，导致数据在使用的过程中受到约束；再者是个人也在不断增强隐私保护意识，这些方面均不利于数据共享，使得数据共享成为难题，企业与企业之间、机构与机构之间存在“数据孤岛”的问题。因此，联邦学习应运而生，用于解决机器学习中的数据孤岛问题。联邦学习自2017年Google提出，受到学者们的广泛关注。如无线通信与边缘计算、智慧医疗、环境保护等领域。

在传统的联邦学习训练过程中，在聚合时每一个用户的聚合权重是一样的，或者采用用户数据数量占总数据量的比重作为聚合时的权重，这样的方式对数据量多的用户有优势，但是对有些数据量多但其数据质量不好的用户，给该用户分配更多的权重会影响全局模型的训练，即让其他用户的计算代价更高，即其他用户在本地进行模型训练迭代需要的迭代次数和服务器与各用户之间的迭代次数更高。

针对以上问题，本发明在联邦学习训练过程中考虑了用户数据质量对模型训练的影响，提出了一种基于公平联邦学习算法的数据分类方法及系统。

发明内容

本发明的目的是提供一种基于公平联邦学习算法的数据分类方法及系统，解决传统的联邦学习训练过程中，对各用户的权重分配不公平的问题。

为实现上述目的，本发明提供了一种基于公平联邦学习算法的数据分类方法，包括以下步骤：

基于熵权法，根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数；所述本地数据集中包含若干个样本数据和每个样本数据的属性；

初始化全局模型，并将初始化后的所述全局模型参数发送给各用户端；

根据所述全局模型参数，利用各用户端拥有的本地数据集，在各用户端进行训练，得到各用户端的本地模型参数；

根据各用户端的数据数量和各用户端的数据质量分数，确定各用户端的聚合权重；

根据各用户端的聚合权重和各用户端的本地模型参数，确定并更新所述全局模型参数；

判断是否达到结束迭代条件；

若否，则跳转到所述“根据所述全局模型的参数，利用各用户端拥有的本地数据集，在各用户端进行训练，得到各用户端的本地模型参数”；

若是，则结束训练，全局模型根据训练好的全局模型参数进行数据分类。