[发明专利]一种模型训练过程中的隐私保护方法、系统及相关设备在审
| 申请号: | 202010953756.3 | 申请日: | 2020-09-11 |
| 公开(公告)号: | CN112052480A | 公开(公告)日: | 2020-12-08 |
| 发明(设计)人: | 刘洋;李泽睿;张伟哲;徐睿峰;王轩;蒋琳;廖清 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
| 地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 训练 过程 中的 隐私 保护 方法 系统 相关 设备 | ||
本发明实施例提供了一种模型训练过程中的隐私保护方法、系统及相关设备,用于实现模型训练过程中的隐私保护。本发明实施例方法包括:接收服务端发送的目标模型,并接收服务端发送的选择指令,选择指令用于指示随机选中的部分客户端;被选中的客户端以概率P参与目标模型训练,未被选中的客户端以概率(1‑P)参与目标模型训练;所有确定参与目标模型训练的客户端作为目标客户端,分别采用本地数据对目标模型进行训练,并计算每个训练之后的目标模型的模型参数更新值;按照预设差分隐私算法对每组模型参数更新值进行处理生成更新数据,并将更新数据返回给服务端,以使得服务端根据所有的更新数据生成本轮训练的全局模型。
技术领域
本发明涉及模型训练过程中的隐私保护技术领域,尤其涉及一种模型训练过程中的隐私保护方法、系统及相关设备。
背景技术
机器学习的发展和应用以大数据的收集和分析为基础,往往需要对多数据源的数据进行融合分析。在这种融合分析场景下,每个参与方的私有数据中都包含大量的隐私信息,简单的将这些数据进行集中化收集和分析会导致隐私泄露。
谷歌(Google)团队提出的联邦学习机制实现隐私保护联合建模,其在每一轮训练过程中,服务端选择部分客户端参与训练,并将全局模型下发,每个客户端利用本地存储的数据来训练模型,并返回模型模型参数更新值,服务端根据这些返回值生成一个最终的全局模型。
然而这种联邦学习机制依赖于一个可信的服务器,否则客户端返回给服务器的原始数据值会暴露给恶意服务端。其次,客户端返回值在传输过程中也容易遭受拦截,导致隐私泄露。
发明内容
本发明实施例提供了一种模型训练过程中的隐私保护方法、系统及相关设备,用于实现模型训练过程中的隐私保护。
本发明实施例第一方面提供了一种模型训练过程中的隐私保护方法,可包括:
接收服务端发送的目标模型,并接收所述服务端发送的选择指令,所述选择指令用于指示随机选中的部分客户端;
被选中的客户端以概率P参与所述目标模型训练,未被选中的客户端以概率(1-P)参与所述目标模型训练;
所有确定参与所述目标模型训练的客户端作为目标客户端,分别采用本地数据对所述目标模型进行训练,并计算每个训练之后的目标模型的模型参数更新值;
按照预设差分隐私算法对每组模型参数更新值进行处理生成更新数据,并将所述更新数据返回给服务端,以使得所述服务端根据所有的所述更新数据生成本轮训练的全局模型。
可选的,作为一种可能的实施方式,本发明实施例中的模型训练过程中的隐私保护方法,还可以包括:
获取隐私预算参数ε,根据公式P=(eε)/(1+eε)计算概率P。
可选的,作为一种可能的实施方式,本发明实施例中,所述按照预设差分隐私算法对每组模型参数更新值进行处理生成更新数据,包括:
采用高斯噪声机制生成每组模型参数更新值的高斯噪声,将每组模型参数更新值的高斯噪声与对应的模型参数更新值进行叠加处理生成更新数据。
可选的,作为一种可能的实施方式,本发明实施例中,所述采用高斯噪声机制生成每组模型参数更新值的高斯噪声,包括:
在目标客户端每一回合的训练后,计算出模型参数更新值对应矩阵的二范数,并计算N个回合的二范数的平均值S;
随机生成方差为σ2S2的高斯噪声。
可选的,作为一种可能的实施方式,本发明实施例中的模型训练过程中的隐私保护方法,还可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010953756.3/2.html,转载请声明来源钻瓜专利网。





