[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审
| 申请号: | 201710984658.4 | 申请日: | 2017-10-20 |
| 公开(公告)号: | CN107766740A | 公开(公告)日: | 2018-03-06 |
| 发明(设计)人: | 颜飞;张兴;李畅;史伟;李万杰;李帅 | 申请(专利权)人: | 辽宁工业大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/30;G06K9/62 |
| 代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 周明飞 |
| 地址: | 121001 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 spark 框架 基于 隐私 保护 数据 发布 方法 | ||
1.一种Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,包括如下步骤:
步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计;
步骤2:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的发布数据集进行聚类分组C={C1,C2,…,Ck};
步骤3:对每个分组求均值:
其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;
步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:
其中,ε为隐私预算,d为查询维数;
步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。
2.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤1中数据集分类采用Hash_map按照数据属性进行分类统计,形成中间数据集D'。
3.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化。
4.如权利要求3所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述k-means聚类算法包括如下步骤:
步骤2.1:初始化k个数据作为初始聚类中心,形成聚类样本;
步骤2.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值与最近的中心点的距离进行比较,若二范数之差的平方值小于最近的中心点的距离,则进行真正的欧氏距离计算,若真正的欧氏距离小于最近的中心点的距离,将距离最小的归类到聚类中心,形成k个聚类;
步骤2.3:计算各聚类内数据均值,更新聚类中心;
步骤2.4:循环步骤2.1-2.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。
5.如权利要求4所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中利用k-means聚类算法形成分组最优划分与合并。
6.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,查询维数d为一维。
7.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,隐私预算ε为0.01。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710984658.4/1.html,转载请声明来源钻瓜专利网。





