[发明专利]一种模型隐私保护方法及装置在审
申请号: | 202011155392.0 | 申请日: | 2020-10-26 |
公开(公告)号: | CN112329052A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 刘洋;尹书君;张伟哲;徐睿峰;王轩;蒋琳;廖清 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘翠香 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 隐私 保护 方法 装置 | ||
本申请公开了一种模型隐私保护方法,该方法包括以下步骤:基于当前训练场景,确定用于对模型进行隐私保护的目标保护方式;如果目标保护方式为PATE方式,则在使用训练数据集进行模型训练过程中,对中间产生的投票结果进行加噪处理,训练完成后,获得最终的待使用第一模型;如果目标保护方式为差分隐私随机梯度下降DPSGD方式,则在使用训练数据集进行模型训练过程中,对将训练数据集输入到模型后计算得到的梯度进行加噪处理,训练完成后,获得最终的待使用第二模型。应用本申请所提供的技术方案,可以较好地且有效地进行隐私保护,提高训练数据及模型的安全性。本申请还公开了一种模型隐私保护装置,具有相应技术效果。
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种模型隐私保护方法及装置。
背景技术
随着计算机技术的快速发展,机器学习的发展也日趋成熟。机器学习广泛应用在各种场景中,如推荐系统、人脸识别、智能家居、无人汽车等,给人们生活带来诸多变化。
机器学习模型的性能与训练数据集的大小相关。训练数据可能涉及到购物信息、体检病历等,用户并不希望购物信息、体检病历等涉及到个人隐私的数据被泄露,但机器学习模型往往会在训练过程中隐式记住这些细节,并且在推理、预测过程中无意间透露,而且还可能被恶意者通过数据窃取方式获取。所以说,机器学习本身存在着隐私安全、隐私泄露等安全问题。
综上所述,如何在模型训练过程中有效进行隐私保护,提高训练数据及其模型的安全性,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种模型隐私保护方法及装置,以在模型训练过程中有效进行隐私保护,提高训练数据及模型的安全性。
为解决上述技术问题,本申请提供如下技术方案:
一种模型隐私保护方法,包括:
基于当前训练场景,确定用于对模型进行隐私保护的目标保护方式;
如果所述目标保护方式为PATE方式,则在使用训练数据集进行模型训练过程中,对中间产生的投票结果进行加噪处理,训练完成后,获得最终的待使用第一模型;
如果所述目标保护方式为差分隐私随机梯度下降DPSGD方式,则在使用所述训练数据集进行模型训练过程中,对将所述训练数据集输入到模型后计算得到的梯度进行加噪处理,训练完成后,获得最终的待使用第二模型。
在本申请的一种具体实施方式中,所述训练数据集包括隐私数据集和公共数据集,所述在使用训练数据集进行模型训练过程中,对中间产生的投票结果进行加噪处理,训练完成后,获得最终的待使用第一模型,包括:
将所述隐私数据集划分为不相交的N个隐私数据子集,N为正整数;
分别使用每个隐私数据子集进行机器学习模型的训练,获得N个教师模型;
利用所述N个教师模型对所述公共数据集中的每个数据进行类别预测,获得所述公共数据集中每个数据的各个类别的投票数;
对获得的投票数进行噪声聚合处理,确定每个数据的最终标签;
使用所述公共数据集中的数据和相应数据的最终标签,训练学生模型;
将训练完成的学生模型确定为最终的待使用第一模型。
在本申请的一种具体实施方式中,所述对获得的投票数进行噪声聚合处理,确定每个数据的最终标签,包括:
对所述公共数据集中每个数据各个类别的投票数进行加噪扰动处理;
基于加噪扰动处理后的各个类别的投票数,确定每个数据的最终标签。
在本申请的一种具体实施方式中,所述基于加噪扰动处理后的各个类别的投票数,确定每个数据的最终标签,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011155392.0/2.html,转载请声明来源钻瓜专利网。