[发明专利]一种MapReduce框架下基于差分隐私的匿名协同方法在审
申请号: | 201711210206.7 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107862220A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 许国艳;宋健;朱帅;李敏佳;张网娟 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 框架 基于 隐私 匿名 协同 方法 | ||
1.一种MapReduce框架下基于差分隐私的匿名协同方法,其特征在于,该方法包括以下步骤:
(1)启动输入,复制数据集至HDFS,归一化数据;
(2)对预处理完的所述数据集进行切片处理;
(3)在分布式计算结点上执行Map分任务,首先计算属性到对应中心点的距离,然后判断记录所属等价类类别;
(4)在分布式计算结点上执行Reduce分任务,首先添加Laplace噪声,然后计算等价类质心匿名,使得最终的结果满足ε-差分隐私保护;
(5)更新质心文件,输出结果,所述结果收敛则结束,否则返回(3)和(4)。
2.根据权利要求1所述的MapReduce框架下基于差分隐私的匿名协同方法,其特征在于,步骤(2)中,所述将所述数据集切片具体包括:
对于P维数据集T={x1,x2,x3,…,xn},其中,n表示所述数据集T包含的记录数;确定k-划分的参数k值,将所述数据集T分为m个数据片,将每个所述数据片设为Dj(1≤j≤m),得到Mj←{x1,...xi...,xm},其中,x为所述数据集T中的数据,Mj为j个切片下的作用数据集。
3.根据权利要求1所述的MapReduce框架下基于差分隐私的匿名协同方法,其特征在于,步骤(3)中,所述执行Map分任务具体包括:
(31)计算每一个记录到该记录相应的质心距离,测度公式为其中,yij是所述数据集T的第i个属性的第j个记录,是所述数据集T的第i个属性的质心值,p表示所述数据集T包含的属性个数;
(32)输出置空;
(33)对所述数据集切片记录使用均值排序方法进行排序;根据k值大小,找出排好序集合中的第一条和最后一条记录f、l,找到离f最近的k-1条记录组成等价类S1,找到离l最近的k-1条记录组成等价类S2,记作S=S∪{S1,S2}&&Mi=Mi-S1-S2,递归时先将S设置为空集,其中,Mi为i个切片下的作用数据集;
(34)记录所映射的键值对<key,value>,其中,key为所述数据集切片记录隶属等价类中心标识,value为所述数据集切片记录属性向量。
4.根据权利要求1所述的MapReduce框架下基于差分隐私的匿名协同方法,其特征在于,步骤(4)中,所述执行Reduce分任务具体包括:
(41)接收所述Map分任务阶段的键值对<key,value>,并将所述键值对添加Laplace噪声,并分派任务;
(42)计算所述等价类中记录的数目num以及每个所述记录属性向量之和sum,同时进行Laplace加躁处理得到匿名记录的数目num'和匿名记录属性向量之和sum';
(43)计算匿名质心向量x'=sum'/num',用所述匿名质心代替其他值,返回匿名数据集;
(44)输出<key,value>。
5.根据权利要求1或者3所述的MapReduce框架下基于差分隐私的匿名协同方法,其特征在于,步骤(5)中,所述最终的结果满足ε-差分隐私保护的条件为第i次递归过程中加入的随机噪声为Lap(P+1)(2i+1/ε),其中,ε为隐私保护预算,P为所述数据集的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210206.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种社交网络中需求隐私的保护方法
- 下一篇:一种服务器部件防伪认证的方法