[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审

专利信息
申请号: 201710984658.4 申请日: 2017-10-20
公开(公告)号: CN107766740A 公开(公告)日: 2018-03-06
发明(设计)人: 颜飞;张兴;李畅;史伟;李万杰;李帅 申请(专利权)人: 辽宁工业大学
主分类号: G06F21/62 分类号: G06F21/62;G06F17/30;G06K9/62
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙)11369 代理人: 周明飞
地址: 121001 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 spark 框架 基于 隐私 保护 数据 发布 方法
【说明书】:

技术领域

发明涉及大数据安全领域,更具体的是,本发明涉及一种Spark框架下的基于差分隐私保护的数据发布方法。

背景技术

随着信息网络和基于信息网络的各种应用的不断发展和普及,大量的个人隐私数据被收集存储,例如医疗健康数据、在线交易数据、网络存储数据等。对这些数据集进行分析可使人们获得更深层次的数据价值,但使用不当则会导致数据的隐私泄露事件不断发生,所泄露的内容类型很多,包括个人身份信息、网络访问习惯、兴趣爱好乃至邮件内容。隐私泄露问题已成为人们广泛关注的焦点。隐私数据泄露不仅会影响到个人利益,甚至威胁到国家的网络空间安全。尤其是面对如此复杂的大数据背景,如何保护数据的隐私安全尤为重要。

差分隐私(Differential Privacy,DP)作为一种新型、轻量级的隐私保护算法,通过对发布数据进行随意扰动,为数据的隐私保护提供了一种崭新的方法。而如何在满足差分隐私的前提下提高发布统计数据的可用性及算法的计算效率是当前差分隐私数据发布研究的核心问题。

发明内容

本发明的目的是设计开发了一种Spark框架下的基于差分隐私保护的数据发布方法,能够提高判断离群点和差值集的计算效率,并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。

本发明提供的技术方案为:

一种Spark框架下的基于差分隐私保护的数据发布方法,包括如下步骤:

步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计;

步骤2:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组C={C1,C2,…,Ck};

步骤3:对每个分组求均值:

其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;

步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:

Ck'_avg=Ck_avg+Lapdk(1/ε)

其中,ε为隐私预算,d为查询维数;

步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。

优选的是,所述步骤1中数据集分类:采用Hash_map按照数据属性进行分类统计,形成中间数据集D'。

优选的是,所述步骤2中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化。

优选的是,所述k-means聚类算法包括如下步骤:

步骤2.1:初始化k个数据作为初始聚类中心,形成聚类样本;

步骤2.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值与最近的中心点的距离进行比较,若二范数之差的平方值小于最近的中心点的距离,则进行真正的欧氏距离计算,若真正的欧氏距离小于最近的中心点的距离,将距离最小的归类到聚类中心,形成k个聚类;

步骤2.3:计算各聚类内数据均值,更新聚类中心;

步骤2.4:循环步骤2.1-2.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。

优选的是,所述步骤2中利用k-means聚类算法形成分组最优划分与合并。

优选的是,所述步骤4中,查询维数d为一维。

优选的是,所述步骤4中,隐私预算ε为0.01

本发明至少具备以下有益效果:

(1)本发明所述的一种Spark框架下的基于差分隐私的数据发布方法,能够满足大数据背景下的差分隐私保护直方图发布方法的目的,在于满足海量数据计算效率的要求下提供有效的隐私保护。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710984658.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top