[发明专利]一种面向差分隐私保护的k均值聚类方法有效
申请号: | 201810347108.6 | 申请日: | 2018-04-18 |
公开(公告)号: | CN108280491B | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 杨庚;胡闯;白云璐;王璇;唐海霞 | 申请(专利权)人: | 东莞市盟大塑化科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 523000 广东省东莞市南城区周溪隆溪路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 隐私 保护 均值 方法 | ||
本发明公开了一种面向差分隐私保护的k均值聚类方法,包括数据预处理;用C表示聚类后的中心点集,C,表示给定的数据集和簇中心C下的误差平方和;判断C,的大小;循环执行,直到retry大于给定的重试次数最大值retrymax,然后返回最优的中心点Cbest;遍历数据集X中的每个点,将它分类到最近的中心点;设置添加的随机噪声;重新计算每个簇的数据点的总和、点的数量,添加噪声,最后更新簇的质心;重复步骤直到误差平方和收敛或迭代次数达到上限。本发明在k均值聚类算法的迭代过程中增加了满足特定分布的适当的随机噪声,使得聚类结果在一定程度上失真,达到隐私保护的目的,同时保证了数据的可用性。
技术领域
本发明涉及一种隐私保护、聚类方法,具体涉及一种面向差分隐私保护的k均值聚类方法,属于信息安全技术领域。
背景技术
随着云计算和大数据的快速发展,数据挖掘技术在一些深入的研究和应用中取得了长足的进步。作为数据挖掘的重要方法之一,聚类算法可以挖掘隐含的,未知的知识和规则,并且在大量相关数据的业务决策中具有重要潜在价值。但与此同时,大量信息披露敏感信息给用户带来无法估量的威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。随着隐私保护技术的提出与发展,差分隐私保护方法成为目前一种热门的隐私保护技术。差分隐私通过噪声机制实现,即向输出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用性越低,反之亦然。
作为最常用的聚类方法之一,k-means算法实现简单,同时提供高速聚类。但传统差分隐私保护k-means算法(如差分隐私k-means算法、差分隐私k-means++算法等),对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。
发明内容
本发明所要解决的问题就是针对背景技术中存在的不足支出,提出一种面向差分隐私保护的k均值聚类方法,在k均值聚类算法的迭代过程中增加了满足特定分布的适当的随机噪声,使得聚类结果在一定程度上失真,达到隐私保护的目的,同时保证了数据的可用性;方法简单、易操作且不限制数据集大小和属性。
本发明的方法在数据集上执行k-means++算法获得的结果作为输入值,然后通过交替进行一系列非局部“跳跃”与执行传统的k-means算法,得到优化的聚类初始中心点,利用此中心点集再执行中心点的加噪迭代的聚类过程;本发明所采用的差分隐私保护技术定义了一个及其严格的攻击模型,并对隐私风险进行了严格的数学证明和定量表示,同时差分隐私机制也能在k-means聚类数据挖掘结果可用性和隐私保护级别两方面取得更好的平衡。
本发明的一种面向差分隐私保护的k均值聚类方法,包括以下步骤:
步骤1:样本数据预处理;
步骤2:用C表示聚类后的中心点集,φ(C,X)表示给定的样本数据集X和簇中心点集C下的误差平方和,x表示样本数据集中的一条数据,c表示簇中心点集中的一个中心点,其中
φ(C,X)=∑x∈X minc∈C||x-c||2 (2)
retry表示重试的次数,retrymax表示最大重试次数,φbest表示更新后的误差平方和,Cbest表示更新后的中心点集;然后存储在数据集X执行k-means++算法后得到的目前为止最小的误差平方和φ(C,X)到φbest中和最优的聚类中心点集C到Cbest中;令retrymax=m,m∈{0,1,2,…},并初始化retry=0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市盟大塑化科技有限公司,未经东莞市盟大塑化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810347108.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于卷积神经网络的细粒度车型识别方法
- 下一篇:卡片传动与分离装置