[发明专利]面向大数据分析的隐私保护聚类方法及计算机存储介质在审
申请号: | 201910565540.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110334757A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 徐小龙;范泽轩;孙雁飞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私保护 聚类算法 大数据 中心点 迭代 聚类 噪声 计算机存储介质 隐私 敏感信息 拉普拉斯分布 数据归一化 误差平方和 可用性 参数添加 聚类结果 数据集中 隐私泄露 预算分配 中间参数 数据集 样本点 预算 泄露 分析 挖掘 分配 更新 改进 | ||
本发明公开了一种面向大数据分析的隐私保护聚类方法及计算机存储介质,方法包括以下步骤:数据归一化和选取中心点、计算最小隐私预算并分配隐私预算序列、划分样本点到最近的中心点、生成拉普拉斯噪声、在更新中心点的过程中向其中的参数添加噪声、不断迭代直到相邻两次迭代的误差平方和之差小于阈值或者达到最大迭代次数。本发明通过向聚类算法执行过程中的中间参数添加服从拉普拉斯分布的噪声来保护数据集中的敏感信息,解决了聚类算法执行过程中泄露数据集敏感信息的问题,改进了差分隐私保护聚类算法的隐私预算分配的方式,在相同隐私保护程度下提高了聚类结果的可用性,解决大数据聚类挖掘中的隐私泄露问题。
技术领域
本发明涉及一种隐私保护聚类方法及计算机存储介质,特别是涉及一种面向大数据分析的隐私保护聚类方法及计算机存储介质。
背景技术
目前,数据挖掘越来越受到人们的重视,使用机器学习算法对海量数据进行挖掘分析,可以获得大量极具价值的新知识和新规律。聚类分析作为数据挖掘领域中比较常用的方法,在数据预处理、目标群体分类、模式识别和图像分割等场景下都有广泛的应用。K均值是大数据聚类分析中最为简单有效也是使用最多的算法,但在算法执行过程中,更新质心时需要计算每个聚类的样本数量以及各个属性的和,这些操作会泄露数据集的敏感信息。
差分隐私是一种数据隐私保护技术,通过添加噪声的方式来扰乱数据,同时能够保留数据的统计方面的性质。因此使用差分隐私保护技术与聚类算法相结合,可以保护数据集的敏感信息不泄露并且获得相对准确的聚类结果。已有的隐私保护聚类算法存在着一些不足之处,初始点的随机选择和隐私预算消耗过快都会导致聚类结果可用性不理想。另外,传统隐私预算分配容易导致的随机噪声过大的问题仍没有解决。
发明内容
发明目的:本发明要解决的技术问题是提供一种面向大数据分析的隐私保护聚类方法及计算机存储介质,解决了传统隐私预算分配容易导致随机噪声过大,从而影响聚类结果质量的问题,改进了差分隐私保护聚类算法的隐私预算分配的方式,提出了一种等差隐私预算分配方式,在相同隐私保护程度下提高了聚类结果的可用性,解决大数据聚类挖掘中的隐私泄露问题。
技术方案:本发明所述的面向大数据分析的隐私保护聚类方法,包括以下步骤:
(1)对数据集中的数据进行归一化处理;
(2)将数据集平均分为k个子集,在每个子集中随机选择一个样本点作为初始中心点;
(3)设置总隐私预算ε和最大迭代次数tm,计算最小隐私预算εm和迭代次数t=ε/εm,如果t>tm,则采用等差隐私预算分配方式来分配隐私预算序列,如果t≤tm,则采用平均隐私预算分配方式来分配隐私预算序列,得到隐私预算序列εp,其中1≤p≤tm;
(4)对于数据集中的所有样本点,分别计算其到k个中心点的欧氏距离,将样本点分配给最近的中心点,将数据集划分为k个聚类C={C1,C2,…,Ck};
(5)根据隐私预算序列εp中对应的项生成拉普拉斯分布的随机数;
(6)对于每一个聚类Cj,其中1≤j≤k,计算该聚类样本点数目num以及样本点的和向量sum,分别对其添加噪声得到num′和sum′,上述噪声为步骤(5)中拉普拉斯分布的随机数;
(7)更新每一个聚类Cj的中心点为sum′/num′,其中1≤j≤k;
(8)计算误差平方和,如果本次和前次迭代的误差平方和的差的绝对值小于设置阈值或者迭代次数达到上限tm,则结束执行,得到聚类结果,否则转到步骤4继续执行下一次迭代。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910565540.7/2.html,转载请声明来源钻瓜专利网。