[发明专利]一种面向差分隐私保护的k均值聚类方法有效
申请号: | 201810347108.6 | 申请日: | 2018-04-18 |
公开(公告)号: | CN108280491B | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 杨庚;胡闯;白云璐;王璇;唐海霞 | 申请(专利权)人: | 东莞市盟大塑化科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 523000 广东省东莞市南城区周溪隆溪路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 隐私 保护 均值 方法 | ||
1.一种面向差分隐私保护的k均值聚类方法,其特征在于,包括以下步骤:
步骤1:样本数据预处理;
步骤2:用C表示聚类后的中心点集,φ(C,X)表示给定的样本数据集X和簇中心点集C下的误差平方和,x表示样本数据集中的一条数据,c表示簇中心点集中的一个中心点,其中
φ(C,X)=∑x∈X minc∈C||x-c||2
retry表示重试的次数,retrymax表示最大重试次数,φbest表示更新后的误差平方和,Cbest表示更新后的中心点集;将在数据集X上执行k-means++算法后得到的目前为止最小的φ(C,X)存储到φbest中和最优的聚类中心点集C存储到Cbest中;令retrymax=m,m∈{0,1,2,…},并初始化retry=0;
步骤3:当retry≤retrymax时,令λ表示最“无用”的中心点,Ci表示簇i的质心,其中C\{ci}为集合C中去除{ci}部分;Cμ表示簇μ的质心,μ表示簇内距离平方和最大的中心点,dμ表示簇μ的平均距离,其中令o表示一个小的随机数,u表示d维单位超球面的随机向量,∈表示偏移向量,其中o=∈dμu;然后再令λ=μ+o,μ=μ-o;
步骤4:使用步骤3得到的中心点集C作为初始中心点集执行传统的k-means算法,判断φ(C,X)的大小;如果φ(C,X)小于φbest,则φbest=φ(C,X),Cbest=C,retry=0,否则退出当前本层循环,令retry=retry+1,Cbest=C;
步骤5:循环执行步骤3和4,直到retry大于给定的重试次数最大值retrymax,然后返回最优的中心点Cbest;
步骤6:遍历数据集X中的每个点,计算每个点到所有中心点之间的距离,将它分类到最近的中心点,并将X中分成k个簇;
步骤7:设置添加的随机噪声:
随机噪声为Laplace噪声,即噪声服从Laplace分布Lap(b),b=Δf/ε,Δf为全局敏感度,ε为隐私保护预算;记位置参数为0、尺度参数为b的Laplace分布为Lap(b),其概率密度函数为
其中,η表示随机变量;
步骤8:重新计算每个簇的数据点的总和、点的数量,添加噪声Lap(b),得到sum′=sum+Lap(b)和num′=num+Lap(b),最后更新簇的质心为sum′/num′;
步骤9:重复步骤7和8直到误差平方和收敛或迭代次数达到上限,误差平方和越小,聚类结果越独立和紧凑。
2.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤1中,数据预处理的方法如下:
设样本数据集为X,样本空间维数为d,样本个数为n;确定样本各属性之间的比例关系;基于原始数据的最大值Max和最小值Min,采用归一化处理方法进行数据的标准化,数据的每一条记录是d维向量,需要对d维空间的每一维进行缩放至空间[0,1]d中,如式为:
Min、Max分别表示第l维的最小值、最大值,f(l)是第l维的数据,y(l)是第l维缩放后的数据。
3.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤3中,所述偏移向量∈取0.01。
4.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤6中,用dist(x,y)表示点x和点y之间的距离,xi表示点x的第i维的值,yi表示点y的第i维的值,dim表示点的维度;两点之间的距离计算使用欧氏距离计算公式,计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市盟大塑化科技有限公司,未经东莞市盟大塑化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810347108.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于卷积神经网络的细粒度车型识别方法
- 下一篇:卡片传动与分离装置