[发明专利]一种面向深度学习的数据敏感属性脱敏系统及方法有效
申请号: | 202210320910.2 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114417427B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 王志波;袁伟;庞晓艺;任奎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06N3/08 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈;唐银益 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 深度 学习 数据 敏感 属性 系统 方法 | ||
本发明公开了一种面向深度学习的数据敏感属性脱敏系统及方法,系统包括特征提取器和隐私对抗训练模块;特征提取器的输入端连接训练数据集,输出端连有隐私对抗训练模块;特征提取器由卷积神经网络组成,是训练的核心模块,由数据中心训练,训练完成后分发给个人用户用于后续的本地端数据预处理;隐私对抗训练模块包含代理攻击分类器。本方案提出隐私对抗训练在特征空间中将隐私属性置于决策超平面,使得攻击者无法推断,提出条件重构模块保障除隐私属性以外的其他信息被保留下来,能够有效应用于下游任务,同时提出联合优化策略,对数据隐私和数据可用性进行权衡,使得二者能够同时达到最优效果。
技术领域
本发明涉及人工智能(AI)数据隐私安全领域,具体地说,是一种面向深度学习的数据敏感属性脱敏系统及方法。
背景技术
近年来,深度学习在许多领域表现出了卓越的性能,如图像分类、语音识别、自然语言处理等。深度学习的成功可以部分归因于大规模的训练数据,许多的服务提供商从他们的用户手中收集数据用于训练更加精确的模型。然而,这些被收集的训练数据往往包含大量的隐私信息,如种族、性别、年龄等,这些信息可以轻易的被预训练模型获取,并且这种隐私可能被进一步的用于定向广告甚至其他的恶意行为。为了解决数据收集中产生的隐私泄露问题,研究者提出了许多的隐私保护技术。传统的方法,如k-匿名技术,通常是基于句法匿名的方式保护隐私属性。近期被广泛研究的差分隐私技术通过添加噪声的方式能够提供可证明的隐私保护保障。然而,这些方法通常在原始数据产生不可忽视的扰动,导致训练出来的深度学习模型精度下降。为解决以上缺陷,一些研究者提出为每个用户的原始数据提取特征并且只上传这些被提取的特征到数据收集方用于训练需求,这种方法相较于传统的匿名与扰动技术能较好的均衡隐私与可用性需求。但这种基于特征的方法在深度学习的推断攻击下仍然会产生隐私泄露,攻击者能通过公开数据集上训练的模型从上传的特征中推断出原始数据中的隐私信息,同时需要预先定义下游任务难以泛化到实际的应用场景,即服务提供商期望收集到的数据与原始数据有类似的可用性而不是仅仅针对某一特定任务有效,因此需要提出一种有效的隐私保护方式来抵御推断攻击同时保障数据在后续任务上可用性。
发明内容
本发明就是针对现有技术的不足,提供一种面向深度学习的数据敏感属性脱敏系统及方法,有效防御来自恶意攻击者的推断攻击,同时保障数据在模型训练中的可用性。
为了实现本发明的目的,本发明是通过以下技术方法实现的:
本发明公开了一种面向深度学习的数据敏感属性脱敏系统,系统包括特征提取器和隐私对抗训练模块;特征提取器的输入端连接训练数据集,输出端连有隐私对抗训练模块;特征提取器由卷积神经网络组成,是训练的核心模块,由数据中心训练,训练完成后分发给个人用户用于后续的本地端数据预处理;隐私对抗训练模块包含代理攻击分类器,由卷积神经网络及全连接神经网络组成,用于优化特征提取器,使其产生有效的隐私保护能力。
作为进一步地改进,本发明所述的系统还包含条件重构模块,条件重构模块包含隐私编码模型和条件重构网络,条件重构网络由反卷积神经网络组成,条件重构网络分别与特征提取器与隐私编码模型的输出端相连,条件重构网络用于优化特征提取器,使其产生的特征数据保持与原始数据类似的可用性,隐私编码模型由卷积神经网络组成,用于参与条件重构优化流程。
作为进一步地改进,本发明所述的隐私编码模型由隐私编码器与辅助预测模型构成,辅助预测模型与隐私编码器的输出端相连,用于监督隐私编码器的效果,隐私对抗训练模块包括代理攻击分类器。
本发明还公开了一种使用面向深度学习的数据敏感属性脱敏方法,包括如下步骤:用户预先定义其敏感属性信息,由数据中心训练一个用于脱敏的特征提取器,用户共享数据之前,利用的特征提取器在本地端将原始数据转换为脱敏后的特征向量,并将脱敏后的特征向量上传,恶意攻击者即使能访问到该特征向量无法从中获取到任何用户方的隐私信息,训练一个用于脱敏的特征提取器的训练方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210320910.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置