[发明专利]基于密度划分的k‑匿名隐私保护方法在审
申请号: | 201710404771.0 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107292195A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 吴响;胡俊峰;魏裕阳;毛亚青 | 申请(专利权)人: | 徐州医科大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 北京盛凡智荣知识产权代理有限公司11616 | 代理人: | 晏荣府 |
地址: | 221004 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 密度 划分 匿名 隐私 保护 方法 | ||
技术领域
本发明涉及数据发布中的匿名隐私保护技术领域,具体是基于密度划分的k-匿名隐私保护方法。
背景技术
随着互联网技术的发展,当今社会已经迈入大数据时代,发布数据的分析与处理极大地改善了各行各业的发展,促进社会进步。然而,随之带来了数据发布的过程中出现的隐私暴露问题,引起了社会的恐慌,阻碍了数据挖掘行业的发展。因此数据在发布时需要保证个人隐私信息不被泄露。
目前,数据集的隐私保护方法主要是基于k-匿名方法,它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。但是随着研究的深入,学者们发现k-匿名技术单纯的使用泛化/隐匿方法其匿名效率低且匿名后数据可用性差。有学者将微聚集技术引入到数据集的匿名化过程中。它的核心思想是将数据集按照相似度划分成若干个等价类,要求每个等价类中至少包含k个元组,再用每个等价类的质心代替类中的准标识符,从而达到数据匿名的目的。然而现存的微聚集方法在面对稀疏数据集时,匿名后的数据信息损失过高,导致发布的数据集可用性降低。
发明内容
为了克服上述现有技术的缺点,本发明提供一种基于密度划分的k-匿名隐私保护方法,有效降低了匿名数据集的信息损失量,提高了匿名数据集的可用性。
本发明是以如下技术方案实现的:一种基于密度划分的k-匿名隐私保护方法,包括一次划分单元和二次划分单元,具体如下:
一次划分单元:根据各条记录在准标识符属性上的欧式距离,对数值型原始数据集D进行一次基于密度的划分,得到若干个元组相似度较高的小数据集;
二次划分单元:根据各条记录在准标识符属性上的欧式距离,对一次划分单元中得到的每一个小数据集使用微聚集方法MDAV进行二次划分,得到若干个大小在k到2k-1的等价类,用每个等价类质心的准标识符属性值代替等价类中其余记录的准标识符属性值,得到满足k-匿名的数据集。
优选的,所述一次划分单元具体执行步骤如下:
1)访问数值型原始数据集D中的未标记节点,根据准标识符属性的值,计算该未标记节点与所有点的欧式距离,找到与该未标记节点距离小于等于e的所有点;
2)如果点的个数不小于密度阈值MinPts,则将所有的点聚为一类,并将步骤1)中的未标记节点标记为visited;如果步骤1)中的未标记节点附近点的数量小于密度阈值MinPts,则该点暂时被标记为噪声点,并标记为visited;
3)重复步骤1)和2)直到数值型原始数据集D中所有点均被标记为visited;
4)计算噪声点与所有聚类中心的距离,将噪声点归入它最近的聚类中,此时数值型原始数据集D被划分为若干个小数据集。
优选的,将经过一次划分单元处理后的每个小数据集执行以下步骤;
1)根据欧式距离计算聚簇中心点x,找到距x最远的记录r,再找到距离r最远的记录s;
2)以x为中心,从每个分组中选择距离x最近的k个记录组成一个等价类,以s为中心,从每个分组中选择距离s最近的k个记录组成一个等价类;
3)若剩余记录数大于等于2k,则循环执行步骤2)直到剩余记录数小于2k;若剩余记录数在k到2k-1之间,则将剩余记录划分为一类;若剩余记录数小于k,则将剩余的记录归入离各自最近的等价类中;
4)用每个小的聚类质心的准标识符属性值代替类中各记录准标识符属性值,得到满足最优k划分的k-匿名表。
本发明的有益效果是:采用基于密度划分的方法对数据进行一次划分,使得聚集的元组簇内相似度较高,再对每个已划分的聚类使用经典的微聚集方法,从而使最后的结果集达到最优k划分,有效降低了微聚集匿名过程的信息损失量。
附图说明
图1是本发明流程框图:
图2为普通微聚集方法聚类效果示意图;
图3为DBTP-MDAV方法的聚类效果示意图;
图4a为Adult数据集不同k值时MDAV方法与DBTP-MDAV方法信息损失量对比图;
图4b为Air Quality数据集不同k值时MDAV方法与DBTP-MDAV方法信息损失量对比图;
图5a为Adult数据集不同数据量时MDAV方法与DBTP-MDAV方法信息损失量对比图;
图5b为Air Quality数据集不同数据量时MDAV方法与DBTP-MDAV方法信息损失量对比图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州医科大学,未经徐州医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710404771.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据保护方法、移动终端及存储介质
- 下一篇:IO数据的读写方法和装置