[发明专利]一种基于改进KD树数据结构的隐私保护方法有效
| 申请号: | 201810344633.2 | 申请日: | 2018-04-17 |
| 公开(公告)号: | CN108875401B | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 汪小寒;罗永龙;张泽培;韩慧慧;夏芸;左开中 | 申请(专利权)人: | 安徽师范大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62 |
| 代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 方文倩 |
| 地址: | 241000 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 kd 数据结构 隐私 保护 方法 | ||
本发明适用于计算机数据隐私保护技术领域,提供了一种基于改进KD树数据结构的隐私保护方法,该方法先按照一定的概率比率选取部分维度来代替从全部维度中寻找最优的维度,将局部最优维度作为全局最优维度,然后在该维度上寻找最优划分点,最优划分点的选取上采用了一种双区间寻找方法,通过增大划分点的搜索范围,找出最优划分点,可以让划分更加合理、提高数据质量,从而弥补概率选最优维度算法在数据质量上的不足,保证算法匿名后数据质量和可用性更高。
技术领域
本发明属于计算机数据隐私保护技术领域,提供了一种基于改进KD树数据结构的隐私保护方法。
背景技术
当前,不同的机构为了研究等目的而产生的大量数据催进了与数据相关的研究,机构之间的数据共享也有利于研究的进展。然而,直接发布原始数据可能会导致在这些数据中提供敏感信息的用户的隐私安全问题。隐私保护数据挖掘是数据挖掘领域的一个热点领域,与数据安全相关的主题受到了国内外研究者的广泛关注。k-匿名算法在数据发布中是一种很有前景的隐私保护机制,它将每个标识符的属性从数据集中推广到至少k-1个。换言之,k-匿名定义了每个匿名组中具有最少k个元组。划分是k匿名机制中常用的方法,如二划分方法、取整划分方法、基于投影区域密度划分、基于KD树的最优投影划分等,基于投影区域密度划分的k匿名算法采用取整划分函数和属性维选择策略,通过提高记录点的投影区域密度来合理划分临时匿名组,解决了“取整划分过程中没有考匿名组相邻数据点距离导致不必要的信息损失”的问题,使划分后泛化产生的信息损失较小,数据使用性更高,并从理论上证明了该算法产生的匿名组规模在最坏的情况下小于2*k,在发布数据足够大时,产生的匿名组平均规模经足够趋近于k,但是基于投影区域密度划分的k匿名算法在划分时,相同的划分点在不同的投影维度上划分结果不同,不是任何投影维度都能保证划分时最佳的。
发明内容
本发明实施例提供了一种基于改进KD树数据结构的隐私保护方法,旨在解决基于投影区域密度划分的k匿名法算在划分时,相同的划分点在不同的投影维度上划分结果不同,不是任何投影维度都能保证划分时最佳的问题。
本发明是这样实现的,一种基于改进KD树数据结构的隐私保护方法,该方法包括如下步骤:
S1、将原始数据表存储为m维向量,所述m维向量称为结点;
S2、创建一个列队及KD树的根结点,将根结点及结点放入列队中;
S3、判断队列中的每个结点是否k匿名条件,若满足,至直接出队,若不满足,则保留在列队,保留在列队中的结点称为待划分结点;
S4、当列队中的待划分结点不为空时,取队头结点,计算队头结点每个属性的维度聚合度量,将维度聚合度量的最大值作为该结点最优维度属性;
S5、获取最优维度属性下的最优划分点p,最优划分点为数据点均域最小值对应的点;
S6、在最优划分点p处进行划分,将当前结点划分为两个容量较小的匿名等价簇nl和nr,nl和nr即为p结点的子结点,即生成左、右子树,
S7、将子节点nl和子节点nr入队;
S8、返回步骤S4,直到队列中的待划分结点为空,即所有的结点均满足匿名条件出队,KD树构建完成;
S9、遍历每个叶子结点,得到每个叶子结点中的等价簇中的数据并进行匿名化,生成匿名表T。
进一步的,所述步骤S4中最优维度属性的获取方法包括如下步骤:
S41、用概率方法随机从队头结点所有属性中选取一定比例的维度,生成待判维度集合;
S42、遍历待判维度集合中的每个维度,计算对应维度上超投影点的方差值,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽师范大学,未经安徽师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344633.2/2.html,转载请声明来源钻瓜专利网。





