[发明专利]面向大数据分析的隐私保护聚类方法及计算机存储介质在审
申请号: | 201910565540.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110334757A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 徐小龙;范泽轩;孙雁飞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向大数据分析的隐私保护聚类方法及计算机存储介质,方法包括以下步骤:数据归一化和选取中心点、计算最小隐私预算并分配隐私预算序列、划分样本点到最近的中心点、生成拉普拉斯噪声、在更新中心点的过程中向其中的参数添加噪声、不断迭代直到相邻两次迭代的误差平方和之差小于阈值或者达到最大迭代次数。本发明通过向聚类算法执行过程中的中间参数添加服从拉普拉斯分布的噪声来保护数据集中的敏感信息,解决了聚类算法执行过程中泄露数据集敏感信息的问题,改进了差分隐私保护聚类算法的隐私预算分配的方式,在相同隐私保护程度下提高了聚类结果的可用性,解决大数据聚类挖掘中的隐私泄露问题。 | ||
搜索关键词: | 隐私保护 聚类算法 大数据 中心点 迭代 聚类 噪声 计算机存储介质 隐私 敏感信息 拉普拉斯分布 数据归一化 误差平方和 可用性 参数添加 聚类结果 数据集中 隐私泄露 预算分配 中间参数 数据集 样本点 预算 泄露 分析 挖掘 分配 更新 改进 | ||
【主权项】:
1.一种面向大数据分析的隐私保护聚类方法,其特征在于,包括以下步骤:(1)对数据集中的数据进行归一化处理;(2)将数据集平均分为k个子集,在每个子集中随机选择一个样本点作为初始中心点;(3)设置总隐私预算ε和最大迭代次数tm,计算最小隐私预算εm和迭代次数t=ε/εm,如果t>tm,则采用等差隐私预算分配方法来分配隐私预算序列,如果t≤tm,则采用平均隐私预算分配方法来分配隐私预算序列,得到隐私预算序列εp,其中1≤p≤tm;(4)对于数据集中的所有样本点,分别计算其到k个中心点的欧氏距离,将样本点分配给最近的中心点,将数据集划分为k个聚类C={C1,C2,…,Ck};(5)根据隐私预算序列εp中对应的项生成拉普拉斯分布的随机数;(6)对于每一个聚类Cj,其中1≤j≤k,计算该聚类样本点数目num以及样本点的和向量sum,分别对其添加噪声得到num′和sum′,上述噪声为步骤(5)中拉普拉斯分布的随机数;(7)更新每一个聚类Cj的中心点为sum′/num′,其中1≤j≤k;(8)计算误差平方和,如果本次和前次迭代的误差平方和的差的绝对值小于设置阈值或者迭代次数达到上限tm,则结束执行,得到聚类结果,否则转到步骤4继续执行下一次迭代。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910565540.7/,转载请声明来源钻瓜专利网。