[发明专利]一种隐私保护的模型训练方法、系统及装置在审
| 申请号: | 202110433119.8 | 申请日: | 2021-04-21 |
| 公开(公告)号: | CN113032835A | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 吴慧雯;陈岑;王力 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N20/00;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 隐私 保护 模型 训练 方法 系统 装置 | ||
1.一种隐私保护的模型训练方法,所述方法由参与训练的多个数据方中的某一数据方实现,所述方法包括对数据方持有的模型进行多轮迭代更新,所述模型包括共享部分和专有部分,其中,一轮迭代更新包括:
基于自身持有的训练样本对模型进行迭代训练,得到模型数据;所述模型数据包括对应于模型的共享部分的第一共享数据和对应于模型的专有部分的本地数据,且在所述迭代训练中还包括对对应于模型的共享部分的第一共享数据添加扰动,以至少对模型数据中的第一共享数据进行隐私保护;
传输第一共享数据至服务器,以便使服务器基于多个数据方的第一共享数据确定第二共享数据;
获取所述服务器返回的第二共享数据,并基于所述第二共享数据更新所述模型的共享部分;
基于更新后的模型进行下一轮迭代更新,或将更新后的模型作为最终模型。
2.根据权利要求1所述的方法,其中,所述迭代训练包括:
将自身持有的训练样本的特征数据输入至模型,确定预测结果;
基于所述训练样本对应的标签数据以及所述预测结果确定损失函数值;
基于所述损失函数值确定梯度数据;所述梯度数据包括对应于模型的共享部分的共享梯度数据以及对应于模型的专有部分的专有梯度数据;
对所述共享梯度数据添加扰动;
基于所述专有梯度数据以及添加扰动后的共享梯度数据确定所述模型数据;或者,基于专有梯度数据更新模型的专有部分,基于添加扰动后的共享梯度数据更新模型的共享部分,以及基于更新后的模型进行下一次迭代训练。
3.根据权利要求2所述的方法,其中,所述对所述共享梯度数据添加扰动,包括:
获取预设裁剪阈值;
对所述共享梯度数据中元素的值进行限制,使其任一元素的绝对值不超过预设裁剪阈值;
生成噪声数据;
将所述噪声数据叠加到所述共享梯度数据上,得到添加扰动后的共享梯度数据。
4.根据权利要求3所述的方法,其中,所述噪声数据包括高斯噪声,且所述高斯噪声的方差基于所述预设裁剪阈值、隐私预算以及松弛项确定,所述高斯噪声的均值为0。
5.根据权利要求2所述的方法,其中,基于所述专有梯度数据以及添加扰动后的共享梯度数据确定所述模型数据,包括:
将所述专有梯度数据以及添加扰动后的共享梯度数据作为所述模型数据;
或者,基于添加扰动后的共享梯度数据更新所述模型的共享部分的模型参数,基于专有梯度数据更新模型的专有部分的模型参数,将更新后的共享部分的模型参数以及更新后的专有部分的模型参数作为所述模型数据。
6.根据权利要求1所述的方法,其中,所述第二共享数据为多个数据方的第一共享数据的加权和值或加权均值。
7.根据权利要求1所述的方法,其中,多个数据方各自持有的模型具有相同的模型结构。
8.根据权利要求1所述的方法,其中,所述模型数据包括经过一次或多次迭代训练获得的模型参数或者梯度数据。
9.根据权利要求8所述的方法,其中,当所述模型数据包括经过一次或多次迭代训练获得的梯度数据时,所述方法还包括基于所述模型数据中的本地数据更新所述模型的专有部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110433119.8/1.html,转载请声明来源钻瓜专利网。





