[发明专利]基于联邦学习的模型训练方法、装置、设备以及存储介质有效
| 申请号: | 202110666784.1 | 申请日: | 2021-06-16 |
| 公开(公告)号: | CN113762328B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 陈晓霖;杨恺;王虎;黄志翔;彭南博 | 申请(专利权)人: | 京东科技控股股份有限公司 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/243;G06F18/25;G06N20/00 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 联邦 学习 模型 训练 方法 装置 设备 以及 存储 介质 | ||
本申请公开了基于联邦学习的模型训练方法和装置,具体实现方案为:当未达到梯度提升树的棵树阈值并且未达到梯度提升树的深度阈值,向联邦学习系统中的各个第二电子设备发送梯度数据;接收各个第二电子设备基于梯度数据发送的表征第二特征信息集中每个特征和相应特征的分裂阈值的随机数编码和第一融合梯度;基于各个第一融合梯度和第一特征信息集,确定信息增益的目标值;响应于信息增益的目标值为本方信息增益的最大值,基于信息增益的目标值对应特征和分裂阈值对样本空间进行划分,生成样本空间划分结果和目标融合梯度;根据目标融合梯度,对第一电子设备的模型参数进行更新。该方案实现了一种具有可解释性的基于联邦学习的模型训练方法。
技术领域
本申请的实施例涉及计算机技术领域,具体涉及机器学习技术领域,尤其涉及基于联邦学习的模型训练方法和装置。
背景技术
随着大数据、人工智能技术的蓬勃发展,互联网金融领域对于大数据和人工智能技术的需求与日俱增。联邦学习作为一种解决“数据孤岛问题”的建模方案,是一种基于隐私安全的分布式机器学习范式,逐渐受到业内关注。联邦学习通常由一方(称为Guest方)提供标签信息和部分特征信息,其他方(称为Host方)提供特征信息。而在机器学习算法中,梯度提升树在具备决策树模型可解释性的同时提升了分类性能及效果。在多方安全建模的需求下,基于联邦学习技术和梯度提升树算法,某银行提出了一种基于半同态加密的梯度提升树方法,即SecureBoost算法。但现有SecureBoost算法为了防止样本信息泄露,各方之间的建模特征无法进行公开,降低了模型的可解释性,并且在现有技术方案中数据方可能通过提供恶意数据破坏模型,存在较大的安全隐患。
发明内容
本申请提供了一种基于联邦学习的模型训练方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种基于联邦学习的模型训练方法,应用于联邦学习系统中的第一电子设备,第一电子设备中存储有各个用户标识和各个用户的第一特征信息集,模型基于梯度提升树算法而构建,方法包括:当未达到梯度提升树的棵树阈值并且未达到梯度提升树的深度阈值,向联邦学习系统中的各个第二电子设备发送梯度数据,其中,梯度数据基于梯度提升树的已构建棵树的预测结果而生成,第二电子设备中存储有与第一电子设备中相同用户的第二特征信息集;接收各个第二电子设备基于梯度数据发送的表征第二特征信息集中每个特征和相应特征的分裂阈值的随机数编码和与各个随机数编码对应的第一融合梯度;基于各个第一融合梯度和第一特征信息集,确定信息增益的目标值,其中,信息增益的目标值通过对本方信息增益的最大值和各个第二电子设备信息增益的最大值进行选取而得到,本方信息增益的最大值用于表征当前节点样本空间中第一特征信息集中每个特征在每个分裂阈值分裂后的各个信息增益中的最大值,第二电子设备信息增益的最大值通过对相应的第一融合梯度进行解密而得到;响应于信息增益的目标值为本方信息增益的最大值,基于信息增益的目标值对应特征和分裂阈值对样本空间进行划分,生成样本空间划分结果和样本空间划分结果对应的目标融合梯度;根据目标融合梯度,对第一电子设备的模型参数进行更新。
在一些实施例中,在基于各个第一融合梯度和第一特征信息集,确定信息增益的目标值之后,还包括:响应于信息增益的目标值为第二电子设备信息增益的最大值,向第二电子设备发送信息增益的目标值对应的随机数编码;接收第二电子设备发送的样本空间划分结果和样本空间划分结果对应的目标融合梯度。
在一些实施例中,梯度数据用于表征各个样本的一阶梯度和二阶梯度;梯度数据通过利用加密技术对一阶梯度和二阶梯度进行加密而生成,加密技术包括同态加密技术。
在一些实施例中,随机数编码为表征第二特征信息集中每个特征和相应特征的分裂阈值的加密后的随机数编码。
在一些实施例中,随机数编码基于当前节点样本空间中第二特征信息集中每个特征标识和相应特征的分裂阈值利用打乱特征排序的方式而生成,随机数编码互不相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110666784.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于生产建设项目水土保持的遥感监测装置
- 下一篇:光标显示方法及电子设备





