[发明专利]一种基于公平联邦学习算法的数据分类方法及系统在审
| 申请号: | 202111478600.5 | 申请日: | 2021-12-06 |
| 公开(公告)号: | CN114298156A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 彭长根;杨秀清;牛坤;丁红发;李雪松 | 申请(专利权)人: | 贵州大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 赵兴华 |
| 地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 公平 联邦 学习 算法 数据 分类 方法 系统 | ||
1.一种基于公平联邦学习算法的数据分类方法,其特征在于,所述方法包括:
基于熵权法,根据用户端本地数据集中每种属性的熵权及每种属性对应的样本数据的数量确定得到各用户端的数据质量分数;所述本地数据集中包含若干个样本数据和每个样本数据的属性;
初始化全局模型,并将初始化后的所述全局模型的参数发送给各用户端;
根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数;
根据各用户端的数据数量和各用户端的数据质量分数,确定各用户端的聚合权重;
根据各用户端的聚合权重和各用户端的本地模型参数,确定并更新所述全局模型的参数;
判断是否达到结束迭代的条件;
若否,则跳转到所述“根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,得到各用户端的本地模型参数”;
若是,则结束训练,所述全局模型根据训练好的全局模型参数进行数据分类。
2.根据权利要求1所述的数据分类方法,其特征在于,所述基于熵权法,根据用户端中每个属性的熵权及每个属性中数据的数量确定得到各用户端的数据质量分数,具体包括:
对各用户端拥有的本地数据集进行预处理;
根据预处理后的本地数据集,确定各用户端在本地数据集中每个样本出现的概率;
根据每个样本出现的概率确定各用户端中每个属性的信息熵;
根据每个属性的信息熵确定各用户端中每个属性的熵权;
根据各用户端中每个属性的熵权及每个属性中数据的数量,确定各用户端的数据质量分数。
3.根据权利要求2所述的数据分类方法,其特征在于,采用以下公式确定各用户端的数据质量分数:
其中,表示用户ui的数据质量分数;ki表示第i个用户的属性个数,m表示第m个属性,表示用户ui的样本个数,j表示第j个样本。
4.根据权利要求1所述的数据分类方法,其特征在于,所述根据各用户端的数据数量和数据质量分数,确定各用户端的聚合权重,具体包括:
根据各用户端的数据数量占总的数据量的比重,确定各用户的数据数量权重;
根据各用户数据质量分数占总的数据质量分数的比重,确定各用户的数据质量权重;
根据各用户的数据数量权重和数据质量权重,确定各用户的混合权重;
根据各用户的混合权重,确定各用户的聚合权重。
5.根据权利要求4所述的数据分类方法,其特征在于,采用以下公式确定各用户的混合权重:
其中,表示用户ui的混合权重,表示用户ui的数据质量权重,表示用户ui的数据数量权重,λ表示数据质量权重在混合权重中的比重。
6.根据权利要求1所述的数据分类方法,其特征在于,采用以下公式初始化全局模型:
其中,p(y=1|x;θ)表示输入属性x时,分类结果y为1的概率;θ表示属性x的比重,即需要优化的模型参数;e是自然对数的底;T表示矩阵的转置操作;g(θTx)为初始化后的全局模型;
其损失函数为:
其中,m表示用户端参与训练的样本个数;p(x(i))表示输入第i个属性时,通过所述全局模型的分类结果y为1的概率。
7.根据权利要求6所述的数据分类方法,其特征在于,所述根据所述全局模型的参数,利用各用户端拥有的本地数据集,在各用户端进行训练,具体包括:
根据所述全局模型参数在各用户端生成本地模型;
利用所述本地模型对各用户端拥有的本地数据进行分类;
进行预设次数的迭代训练,更新所述本地模型的参数,如下式:
其中,θlt+1表示第lt+1次的本地模型参数,θlt表示第lt次的本地模型参数;η表示用户端的学习率;L表示全局模型的损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111478600.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于有向无环图业务流程恢复的方法及装置
- 下一篇:仿真测试系统和方法





