[发明专利]一种隐私保护的k-means聚类方法有效
申请号: | 201711446923.X | 申请日: | 2017-12-27 |
公开(公告)号: | CN108154185B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 赵冬冬;胡小意;向剑文 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 隐私 保护 means 方法 | ||
本发明涉及一种基于负数据库的隐私保护k‑means聚类算法,包括:将所需要进行聚类的数据库中X的每一条数据转化为二进制串,并通过K‑hidden算法对每一个二进制串生成相应的负数据库;随机生成k个不同的二进制串作为初始聚类中心;对于每一个负数据库计算负数据库到每个聚类中心的欧氏距离,把负数据库划分给欧氏距离最小的聚类中心;对于每一个聚类,重新计算聚类中心;重复迭代直到聚类中心不再发生变化。本发明能够提高已有的基于负数据库的k‑means算法聚类精度,并且所提出的欧氏距离估算方法也可以被用到其他的数据挖掘算法来保护数据隐私。
技术领域
本发明属于隐私保护与安全领域,具体涉及利用负数据库保护k-means算法的数据隐私形成的一种隐私保护的k-means聚类方法。
背景技术
随着计算机技术的飞速发展,大量的数据被产生出来,这也使数据挖掘技术得到迅猛的发展。许多的数据挖掘算法被提出来,例如k-means算法,k-nearest neighbor算法等。这些数据挖掘算法在运行的过程中没有保护数据的安全,这可能会使用户的隐私信息被泄露。随着人们对于隐私信息越来越多的重视,进行隐私保护的数据挖掘变得尤为重要。
负数据库(negativedatabase,NDB)是由人工免疫系统启发而来,与传统的数据库不同,负数据库储存不在传统的数据库中的信息。负数据库的具体定义如下:U是一个包含所有l位二进制字符串的全集,DB是一个包含一部分l位二进制字符串的集合,U-DB是DB的补集,一般来说,U-DB所需要的存储空间会远大于DB,所以通过引入通配符“*”来压缩U-DB来得到负数据库(NDB)使NDB所需要的存储空间与DB所需要的存储空间大致相同。一个NDB中的每条记录包含3种元素,“0”,“1”和“*”,其中“*”代表这一位的信息可以为“0”或者为“1”。例如,假设一个数据库(DB)中包含两个3位的二进制字符串000,111,这是,DB的补集U-DB为{100,110,101,010,011,001},通过“*”对U-DB进行压缩我们可以得到NDB:{0*1,*10,10*}。
由于负数据库与SAT公式是等价的,逆转负数据库得到相应的正数据库与求解SAT公式也是等价的,并且求解SAT公式被证明是NP难问题,所以逆转负数据库得到相对应的正数据库也是NP难问题。所以,难以逆转的NDB可以用来保护隐私数据。现有的很多算法都可以生成难以逆转的负数据库,例如1-hidden算法,2-hidden算法,q-hidden算法,p-hidden算法和K-hidden算法。其中,K-hidden算法采用K-1个参数细粒度地控制K种不同类型的记录分布。这使得K-hidden负数据库的安全性(相对于局部搜索策略)可被细粒度的控制。而且,K-hidden负数据库可比p-hidden负数据库和负数据库和q-hidden负数据库更加难解。由K-hidden算法产生的负数据库称为K-NDB,在K-NDB中,每一个字符串有K个确定位,第i种类型的字符串有i位与隐藏串不同。概率参数{p1…pK}控制不同类型的字符串的分布。
与传统的DB一样,负数据库支持一些基本的数据库操作,比如求解交集,删除操作,选择操作,更新操作等。基于这些属性,现有的负数据库在应用方面的研究内容主要包括信息隐藏,负调查,密码负认证等。NDB还支持距离度量,但是把NDB应用于隐私保护的数据挖掘的工作很少。已有的工作已经证明了负数据库可以被用于聚类和分类来保护原始数据的隐私,但是现有的隐私保护聚类算法是基于汉明距离的,对大多数数据库都不适用,并且现有的许多聚类算法都是基于欧氏距离的,因此,提出一个在负数据库上基于欧氏距离的隐私保护聚类算法是很有必要的。
发明内容:
为了解决上述背景技术中提到的问题,本发明提出了一种基于负数据库的隐私保护k-means聚类算法。
为了解决上述技术问题本发明的所采用的技术方案为:
一种隐私保护的k-means聚类方法,其特征在于,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711446923.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人格类型确定方法及装置
- 下一篇:一种模式识别方法和装置