[发明专利]一种多叉树森林K-匿名方法、系统、设备和可读存储介质在审
申请号: | 202010514315.3 | 申请日: | 2020-06-08 |
公开(公告)号: | CN111695153A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 罗霄;陈先来;刘莉;安莹;李忠民 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 张建利 |
地址: | 410012*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多叉树 森林 匿名 方法 系统 设备 可读 存储 介质 | ||
本申请实施例公开了一种多叉树森林K‑匿名方法、系统、设备和可读存储介质,以识别率的计算为基础,解决了贪婪算法在局域泛化模式中每一步最优泛化数据选择的问题,建立多叉树森林实现了泛化数据的存储和局域泛化,以多线程的泛化数据选择和K‑匿名的并行式计算判断提升了模型的效率。即在原始数据的基础上将部分数据泛化,使匿名后的数据集满足K‑匿名模型。在保障数据安全性的条件下,不会影响数据本身的真实性。同时模型保留了数据本身的分布,提高数据匿名化后数据的可用性,适用于小型数据集和大型数据集的匿名化处理。
技术领域
本申请实施例涉及信息安全技术领域,具体涉及一种多叉树森林K-匿名方法、系统、设备和可读存储介质。
背景技术
随着信息时代数据化步伐的加快以及大数据的普及应用,数据挖掘等技术带来了巨大的知识收益,使得数据的搜集被赋予了更重要的地位但由于相关法律和技术不够成熟等原因,在信息被共享应用的同时,造成了隐私泄露,这给隐私相关者带来了潜在的安全隐患。数据发布中的安全问题逐渐成为了亟待解决的问题。
K-匿名算法作为较早提出的数据脱敏模型之一,对于数据的安全性保护具有很多良好的性质,但也存在不足。K匿名会产生由匿名化带来的信息损失导致数据可用性变差,同时需要耗费大量的时间用于数据变化。该类算法存在着诸多局限性,首先,选择某一属性进行一次泛化后如不满足K-匿名,就有可能造成该属性的过度泛化,从而造成数据集的信息损失。其次,全域泛化一般很难满足匿名后数据的可用性要求。此外,无法准确地度量在每次泛化中是否达到了最好的匿名效果,从而整体提升算法的效率。
发明内容
为此,本申请实施例提供一种多叉树森林K-匿名方法、系统、设备和可读存储介质,适用于小型数据集和大型数据集的匿名化处理。即在原始数据的基础上将部分数据泛化,使匿名后的数据集满足K-匿名模型。在保障数据安全性的条件下,不会影响数据本身的真实性。同时模型保留了数据本身的分布,提高数据匿名化后数据的可用性。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种多叉树森林K-匿名方法,所述方法包括:
步骤A:判断原始数据集D是否需要分割为n个子数据集;若需要,转入步骤B;若不需要,转入步骤C;
步骤B:将所述原始数据集D按照分割参数分割为n个子数据集D’={d1,d2,d3,...,dn},建立n个线程并行式分别计算n个子数据集,转入步骤C;
步骤C:拷贝目标数据集,对目标数据集进行K-匿名检测;若目标数据集满足K匿名,则将目标数据集添加到匿名数据集中,并输出匿名数据集;若不满足,则检查目标数据集存在的数据条数,若数据条数大于K则转入步骤D,若数据条数小于K,则将剩余的数据泛化为最高层级并添加到匿名数据集,检测匿名数据集是否满足K-匿名,若满足则输出匿名数据集,若不满足,则不进行本次添加;
步骤D:提取出目标数据集所有计数大于K的等价类,将其存入匿名数据集,目标数据集数量等于1的转入步骤E,目标数据集数量大于1的转入步骤F;
步骤E:选择n-1个属性组成n种组合等价类,生成等价类集G={g1,g2,g3,......,gn},其中属性集的长度为n;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤F:采用m个线程计算不同等价类数量,选择m-1个属性组成m种组合的子集,生成等价类集G={g1,g2,g3,......,gm},其中属性集的长度为m;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤G:当所有数据集的结果输出后,输出汇总所有数据集的匿名数据集和泛化精确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010514315.3/2.html,转载请声明来源钻瓜专利网。