[发明专利]一种面向差分隐私保护的k均值聚类方法有效

专利信息
申请号: 201810347108.6 申请日: 2018-04-18
公开(公告)号: CN108280491B 公开(公告)日: 2020-03-06
发明(设计)人: 杨庚;胡闯;白云璐;王璇;唐海霞 申请(专利权)人: 东莞市盟大塑化科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F21/62
代理公司: 北京权智天下知识产权代理事务所(普通合伙) 11638 代理人: 王新爱
地址: 523000 广东省东莞市南城区周溪隆溪路*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 隐私 保护 均值 方法
【权利要求书】:

1.一种面向差分隐私保护的k均值聚类方法,其特征在于,包括以下步骤:

步骤1:样本数据预处理;

步骤2:用C表示聚类后的中心点集,φ(C,X)表示给定的样本数据集X和簇中心点集C下的误差平方和,x表示样本数据集中的一条数据,c表示簇中心点集中的一个中心点,其中

φ(C,X)=∑x∈X minc∈C||x-c||2

retry表示重试的次数,retrymax表示最大重试次数,φbest表示更新后的误差平方和,Cbest表示更新后的中心点集;将在数据集X上执行k-means++算法后得到的目前为止最小的φ(C,X)存储到φbest中和最优的聚类中心点集C存储到Cbest中;令retrymax=m,m∈{0,1,2,…},并初始化retry=0;

步骤3:当retry≤retrymax时,令λ表示最“无用”的中心点,Ci表示簇i的质心,其中C\{ci}为集合C中去除{ci}部分;Cμ表示簇μ的质心,μ表示簇内距离平方和最大的中心点,dμ表示簇μ的平均距离,其中令o表示一个小的随机数,u表示d维单位超球面的随机向量,∈表示偏移向量,其中o=∈dμu;然后再令λ=μ+o,μ=μ-o;

步骤4:使用步骤3得到的中心点集C作为初始中心点集执行传统的k-means算法,判断φ(C,X)的大小;如果φ(C,X)小于φbest,则φbest=φ(C,X),Cbest=C,retry=0,否则退出当前本层循环,令retry=retry+1,Cbest=C;

步骤5:循环执行步骤3和4,直到retry大于给定的重试次数最大值retrymax,然后返回最优的中心点Cbest

步骤6:遍历数据集X中的每个点,计算每个点到所有中心点之间的距离,将它分类到最近的中心点,并将X中分成k个簇;

步骤7:设置添加的随机噪声:

随机噪声为Laplace噪声,即噪声服从Laplace分布Lap(b),b=Δf/ε,Δf为全局敏感度,ε为隐私保护预算;记位置参数为0、尺度参数为b的Laplace分布为Lap(b),其概率密度函数为

其中,η表示随机变量;

步骤8:重新计算每个簇的数据点的总和、点的数量,添加噪声Lap(b),得到sum′=sum+Lap(b)和num′=num+Lap(b),最后更新簇的质心为sum′/num′;

步骤9:重复步骤7和8直到误差平方和收敛或迭代次数达到上限,误差平方和越小,聚类结果越独立和紧凑。

2.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤1中,数据预处理的方法如下:

设样本数据集为X,样本空间维数为d,样本个数为n;确定样本各属性之间的比例关系;基于原始数据的最大值Max和最小值Min,采用归一化处理方法进行数据的标准化,数据的每一条记录是d维向量,需要对d维空间的每一维进行缩放至空间[0,1]d中,如式为:

Min、Max分别表示第l维的最小值、最大值,f(l)是第l维的数据,y(l)是第l维缩放后的数据。

3.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤3中,所述偏移向量∈取0.01。

4.根据权利要求1所述的面向差分隐私保护的k均值聚类方法,其特征在于,步骤6中,用dist(x,y)表示点x和点y之间的距离,xi表示点x的第i维的值,yi表示点y的第i维的值,dim表示点的维度;两点之间的距离计算使用欧氏距离计算公式,计算方法为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市盟大塑化科技有限公司,未经东莞市盟大塑化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810347108.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top