[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审

专利信息
申请号: 201710984658.4 申请日: 2017-10-20
公开(公告)号: CN107766740A 公开(公告)日: 2018-03-06
发明(设计)人: 颜飞;张兴;李畅;史伟;李万杰;李帅 申请(专利权)人: 辽宁工业大学
主分类号: G06F21/62 分类号: G06F21/62;G06F17/30;G06K9/62
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙)11369 代理人: 周明飞
地址: 121001 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 spark 框架 基于 隐私 保护 数据 发布 方法
【权利要求书】:

1.一种Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,包括如下步骤:

步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计;

步骤2:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的发布数据集进行聚类分组C={C1,C2,…,Ck};

步骤3:对每个分组求均值:

Ck_avg=Σi=1nxi/n]]>

其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;

步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:

Ck′_avg=Ck_avg+Lapdk(1/ϵ)]]>

其中,ε为隐私预算,d为查询维数;

步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。

2.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤1中数据集分类采用Hash_map按照数据属性进行分类统计,形成中间数据集D'。

3.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化。

4.如权利要求3所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述k-means聚类算法包括如下步骤:

步骤2.1:初始化k个数据作为初始聚类中心,形成聚类样本;

步骤2.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值与最近的中心点的距离进行比较,若二范数之差的平方值小于最近的中心点的距离,则进行真正的欧氏距离计算,若真正的欧氏距离小于最近的中心点的距离,将距离最小的归类到聚类中心,形成k个聚类;

步骤2.3:计算各聚类内数据均值,更新聚类中心;

步骤2.4:循环步骤2.1-2.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。

5.如权利要求4所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中利用k-means聚类算法形成分组最优划分与合并。

6.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,查询维数d为一维。

7.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,隐私预算ε为0.01。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710984658.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top