[发明专利]隐私保护加权网络发布数据集的构建方法有效
申请号: | 201711038960.7 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107862014B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 卢俊岭;王小明;张立臣;林亚光 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安永生专利代理有限责任公司 61201 | 代理人: | 申忠才 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私 保护 加权 网络 发布 数据 构建 方法 | ||
一种隐私保护加权网络发布数据集的构建方法,由确定加权网络原始数据集的候选分割点、从候选分割点中选择实际分割点、构建大权值数据集合和小权值数据集合、确定大权值数据集合和小权值数据集合的平滑敏感度、为大权值数据集合记录和小权值数据集合记录添加拉普拉斯噪音、构建隐私保护加权网络发布数据集步骤组成。本发明与现有的“采用全局敏感度对整个数据集添加拉普拉斯噪音”的方法相比,能够在保证数据满足差分隐私保护的同时降低添加的数据噪音,提高数据可用性,实现隐私保护和数据效用的均衡,可用于隐私保护加权网络发布数据集的构建。
技术领域
本发明属于数据隐私保护技术领域,具体涉及到隐私保护加权网络发布数据集的构建。
背景技术
随着智能设备和信息技术的快速发展,运营商和管理者为了提供更好的服务和客户体验,采集了各类用户的大量信息用于数据分析与挖掘;同时,也带来了用户敏感信息泄露的风险。
为了保护用户的隐私,企业界和学术界开展了大量的隐私保护方面的研究工作,提出了基于K-匿名、l-多样化和t-接近等多种隐私保护模型,主要利用泛化、抑制等多种匿名操作方法,但是这些方法依赖于攻击者拥有的背景知识。差分隐私保护模型作为新的隐私保护模型,克服了上述模型的缺点,并且能够提供量化比较的隐私保护水平。因此,结合差分隐私保护模型,研究隐私保护发布数据集的构建问题,实现隐私保护和数据效用的平衡是研究人员关注的热点。
差分隐私保护模型通过限制个体在或不在数据集中的概率比值在某个阈值以下,实现概率意义上的不可区分性,使得攻击者难以做出可信的判断,从而实现个体隐私信息的保护。差分隐私模型通常有两种实现机制:拉普拉斯机制和指数机制。前者适合于数值型数据的保护,后者适合于非数值型数据的保护。这两种机制都会用到全局敏感度,这个概念表示从数据集中删除一个个体对查询结果产生的最大影响,强调了对极端情形的保护,因此全局敏感度通常会导致添加较大的噪音,降低了数据的可用性。
现有技术在利用隐私保护模型时假设了攻击者的背景知识,采用全局敏感度的差分隐私保护模型,对于需要保护加权网络中某条边上权值的场景,由于权值变化会导致全局敏感度很大,因此无法满足场景要求或导致数据不可用。
发明内容
本发明所要解决的技术问题在于克服现在添加数据噪音过大的不足,提供一种实现隐私保护和数据可用性均衡的隐私保护加权网络发布数据集的构建方法。
解决上述技术问题所采用的技术方案由下述步骤组成:
(1)确定加权网络原始数据集的候选分割点
加权网络原始数据集的候选分割点由下式确定:
ci=(wmax-wmin)×i/m (1)
式中,wmax为wmin为v为加权网络原始数据集中记录权值,D为加权网络原始数据集,i为1~10的整数,m为10。
(2)从候选分割点中选择实际分割点
采用差分隐私指数机制法按下式确定概率oi:
oi=exp(ε1×qi/(2Δq)) (2)
式中ε1是总隐私预算ε的一半,ε为0.1~1的任意一个实数,qi为权值落入区间[ci-1,ci]的记录个数,c0为wmin,Δq为1,选择概率最大值对应的候选分割点,作为实际分割点r。
(3)构建大权值数据集合和小权值数据集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711038960.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日程查找方法和移动终端
- 下一篇:一种关键词关联扩展方法和装置