[发明专利]面向大数据分析的隐私保护聚类方法及计算机存储介质在审
申请号: | 201910565540.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110334757A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 徐小龙;范泽轩;孙雁飞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私保护 聚类算法 大数据 中心点 迭代 聚类 噪声 计算机存储介质 隐私 敏感信息 拉普拉斯分布 数据归一化 误差平方和 可用性 参数添加 聚类结果 数据集中 隐私泄露 预算分配 中间参数 数据集 样本点 预算 泄露 分析 挖掘 分配 更新 改进 | ||
1.一种面向大数据分析的隐私保护聚类方法,其特征在于,包括以下步骤:
(1)对数据集中的数据进行归一化处理;
(2)将数据集平均分为k个子集,在每个子集中随机选择一个样本点作为初始中心点;
(3)设置总隐私预算ε和最大迭代次数tm,计算最小隐私预算εm和迭代次数t=ε/εm,如果t>tm,则采用等差隐私预算分配方法来分配隐私预算序列,如果t≤tm,则采用平均隐私预算分配方法来分配隐私预算序列,得到隐私预算序列εp,其中1≤p≤tm;
(4)对于数据集中的所有样本点,分别计算其到k个中心点的欧氏距离,将样本点分配给最近的中心点,将数据集划分为k个聚类C={C1,C2,…,Ck};
(5)根据隐私预算序列εp中对应的项生成拉普拉斯分布的随机数;
(6)对于每一个聚类Cj,其中1≤j≤k,计算该聚类样本点数目num以及样本点的和向量sum,分别对其添加噪声得到num′和sum′,上述噪声为步骤(5)中拉普拉斯分布的随机数;
(7)更新每一个聚类Cj的中心点为sum′/num′,其中1≤j≤k;
(8)计算误差平方和,如果本次和前次迭代的误差平方和的差的绝对值小于设置阈值或者迭代次数达到上限tm,则结束执行,得到聚类结果,否则转到步骤4继续执行下一次迭代。
2.根据权利要求1所述的面向大数据分析的隐私保护聚类方法,其特征在于,步骤(3)中最小隐私预算εm的计算方法为:
其中,N为数据集的记录数,d为数据的维数,ρ为每一维质心估计的平均值。
3.根据权利要求1所述的面向大数据分析的隐私保护聚类方法,其特征在于,步骤(3)中的等差隐私预算分配方法具体为:
把总隐私预算ε分解为长度为tm的递增等差数列,所述序列初始项为εm,所述序列所有项的和为ε,将所述数列倒序得到隐私预算序列εp。
4.根据权利要求1所述的面向大数据分析的隐私保护聚类方法,其特征在于,步骤(3)中的平均隐私预算分配方法具体为:
把总隐私预算ε分解为长度为tm的平均数列,所述序列即为隐私预算序列εp。
5.根据权利要求1所述的面向大数据分析的隐私保护聚类方法,其特征在于:步骤(5)中随机数为服从位置参数为0、尺度参数为b的拉普拉斯分布分随机数,其中,b=d+1/ε’,d为数据的维数,ε’为根据当前迭代次数从隐私预算序列εp中查找的对应位置的数值。
6.根据权利要求1所述的面向大数据分析的隐私保护聚类方法,其特征在于:步骤(2)中的初始中心点为每个子集中随机选择一个样本点后加入随机噪声得到的。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910565540.7/1.html,转载请声明来源钻瓜专利网。