[发明专利]一种多叉树森林K-匿名方法、系统、设备和可读存储介质在审
申请号: | 202010514315.3 | 申请日: | 2020-06-08 |
公开(公告)号: | CN111695153A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 罗霄;陈先来;刘莉;安莹;李忠民 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 张建利 |
地址: | 410012*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多叉树 森林 匿名 方法 系统 设备 可读 存储 介质 | ||
1.一种多叉树森林K-匿名方法,其特征在于,所述方法包括:
步骤A:判断原始数据集D是否需要分割为n个子数据集;若需要,转入步骤B;若不需要,转入步骤C;
步骤B:将所述原始数据集D按照分割参数分割为n个子数据集D’={d1,d2,d3,...,dn},建立n个线程并行式分别计算n个子数据集,转入步骤C;
步骤C:拷贝目标数据集,对目标数据集进行K-匿名检测;若目标数据集满足K匿名,则将目标数据集添加到匿名数据集中,并输出匿名数据集;若不满足,则检查目标数据集存在的数据条数,若数据条数大于K则转入步骤D,若数据条数小于K,则将剩余的数据泛化为最高层级并添加到匿名数据集,检测匿名数据集是否满足K-匿名,若满足则输出匿名数据集,若不满足,则不进行本次添加;
步骤D:提取出目标数据集所有计数大于K的等价类,将其存入匿名数据集,目标数据集数量等于1的转入步骤E,目标数据集数量大于1的转入步骤F;
步骤E:选择n-1个属性组成n种组合等价类,生成等价类集G={g1,g2,g3,......,gn},其中属性集的长度为n;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤F:采用m个线程计算不同等价类数量,选择m-1个属性组成m种组合的子集,生成等价类集G={g1,g2,g3,......,gm},其中属性集的长度为m;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤G:当所有数据集的结果输出后,输出汇总所有数据集的匿名数据集和泛化精确度。
2.如权利要求1所述的方法,其特征在于,所述泛化的属性值为所有等价类在各自对应的数据项中不包含属性的属性值。
3.如权利要求1所述的方法,其特征在于,在步骤E和步骤F中,若在泛化过程中等价类数据条数计数值相同、元组中等价类的数量小于K或者不存在等价类,则选择属性值类型计数值最大的属性进行泛化,直至满足K-匿名为止。
4.一种多叉树森林K-匿名系统,其特征在于,所述系统包括:
数据集属性判断模块,用于判断原始数据集D是否需要分割为n个子数据集;若需要,转入数据集分割模块;若不需要,转入匿名检测模块;
数据集分割模块,用于将所述原始数据集D按照分割参数分割为n个子数据集D’={d1,d2,d3,...,dn},建立n个线程并行式分别计算n个子数据集,转入匿名检测模块;
匿名检测模块,用于拷贝目标数据集,对目标数据集进行K-匿名检测;若目标数据集满足K匿名,则将目标数据集添加到匿名数据集中,并输出匿名数据集;若不满足,则检查目标数据集存在的数据条数,若数据条数大于K则转入等价类提取模块,若数据条数小于K,则将剩余的数据泛化为最高层级并添加到匿名数据集,检测匿名数据集是否满足K-匿名,若满足则输出匿名数据集,若不满足,则不进行本次添加;
等价类提取模块,用于提取出目标数据集所有计数大于K的等价类,将其存入匿名数据集,目标数据集数量等于1的转入第一泛化模块,目标数据集数量大于1的转入第二泛化模块;
第一泛化模块,用于选择n-1个属性组成n种组合等价类,生成等价类集G={g1,g2,g3,......,gn},其中属性集的长度为n;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入匿名检测模块进行K-匿名检测;
第二泛化模块,用于采用m个线程计算不同等价类数量,选择m-1个属性组成m种组合的子集,生成等价类集G={g1,g2,g3,......,gm},其中属性集的长度为m;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入匿名检测模块进行K-匿名检测;
数据输出模块,用于当所有数据集的结果输出后,输出汇总所有数据集的匿名数据集和泛化精确度。
5.如权利要求4所述的系统,其特征在于,所述泛化的属性值为所有等价类在各自对应的数据项中不包含属性的属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010514315.3/1.html,转载请声明来源钻瓜专利网。