[发明专利]一种MapReduce框架下基于差分隐私的匿名协同方法在审
申请号: | 201711210206.7 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107862220A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 许国艳;宋健;朱帅;李敏佳;张网娟 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 框架 基于 隐私 匿名 协同 方法 | ||
技术领域
本发明涉及一种基于MapReduce框架下基于差分隐私的匿名协同方法,属于数据安全领域中的数据隐私保护方法。
背景技术
为了处理大量的数据集,传统的数据隐私保护技术已经遇到了瓶颈,因此数据的并行计算变得尤为必要。高效地计算可以极大地提高数据的发布效率,缩小用户的访问时间。
在数据隐私保护领域,大数据的大规模,高速性,多样化等特征使得它不同于常规的小数据,微聚集技术在提供数据匿名保护的基础上较好的减少了信息损失率,可用性很高,但微聚集隐私保护方法在大数据上具有很大的局限性,主要在于:首先在大规模数据下,单元计算难以在可受理的时间范围内对数据进行有效地划分聚集,使得处理效率低下,其次,在多样化的数据下,使得攻击者拥有的背景知识增多,数据隐私保护的安全性降低。
在安全性能上,差分隐私具有更加严格数学基础的隐私保护模型,但是在原有数据匿名后查询的一些限制可以通过支持大数量潜在的多样化查询的差分隐私进行规避,然而差分隐私在确保修改一条输入记录时发布数据的概率分布是不变的,需要对数据加入必要的噪声进行扰动,数据量越大,噪声也越大,势必会对数据的可用性造成损失。因此,在分布式环境下对数据进行隐私保护显得尤为重要。
发明内容
发明目的:为了克服现有技术的不足,本发明提出一种数据处理效率高,安全性好且可用性高的Mapreduce框架下基于差分隐私的匿名协同方法。
技术方案:微聚集技术在提供数据匿名保护的基础上较好的减少了信息损失率,可用性很高,但是安全性能较低,容易招受同质性攻击和背景知识攻击。
在安全性能上,差分隐私具有更加严格数学基础的隐私保护模型,但是在原有数据匿名后查询的一些限制可以通过支持大数量潜在的多样化查询的差分隐私进行规避,然而差分隐私在确保修改一条输入记录时发布数据的概率分布是不变的,需要对数据加入必要的噪声进行扰动,数据量越大,噪声也越大,势必会对数据的可用性造成损失。
本发明所述的MapReduce框架下基于差分隐私的匿名协同方法,该方法包括以下步骤:
(1)启动输入,复制数据集至HDFS,归一化数据;
(2)对预处理完的所述数据集进行切片处理;
(3)在分布式计算结点上执行Map分任务;
(4)在分布式计算结点上执行Reduce分任务;
(5)更新质心文件,输出结果,所述结果收敛则结束,否则返回(3)和(4);
所述执行Map分任务进一步包括:首先计算属性到对应中心点的距离,然后判断记录所属等价类类别;
所述执行Reduce分任务进一步包括:首先添加Laplace噪声,然后计算等价类质心匿名,使得最终的结果满足ε-差分隐私保护。
优选的,步骤(2)中,所述将所述数据集切片具体包括:
对于P维数据集T={x1,x2,x3,…,xn},其中,n表示所述数据集T包含的记录数;确定k-划分的参数k值,将所述数据集T分为m个数据片,将每个所述数据片设为Dj(1≤j≤m),得到Mj←{x1,...xi...,xm},其中,x为所述数据集T中的数据,Mj为j个切片下的作用数据集;
优选的,步骤(3)中,所述执行Map分任务具体包括:
1)计算每一个记录到该记录相应的质心距离,测度公式为:
其中,yij是所述数据集T的第i个属性的第j个记录,是所述数据集T的第i个属性的质心值,p表示所述数据集T包含的属性个数。
2)输出置空。
3)对所述数据集切片记录使用均值排序进行排序;根据k值大小,找出排好序集合中的第一条和最后一条记录f、l,找到离f最近的k-1条记录组成等价类S1,找到离l最近的k-1条记录组成等价类S2,记作递归时先将S设置为空集,其中,Mi为i个切片下的作用数据集。
4)记录所映射的键值对<key,value>,其中,key为所述数据集切片记录隶属等价类中心标识,value为所述数据集切片记录属性向量。
优选的,步骤(4)中,所述执行Reduce分任务具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210206.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种社交网络中需求隐私的保护方法
- 下一篇:一种服务器部件防伪认证的方法