[发明专利]一种基于准标识属性泛化的k-匿名隐私保护方法在审
申请号: | 201910128727.0 | 申请日: | 2019-02-21 |
公开(公告)号: | CN109918941A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 肖跃雷;朱志祥 | 申请(专利权)人: | 陕西艾特信息化工程咨询有限责任公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 712000 陕西省咸阳市西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标识属性 全域 匿名模型 隐私保护 发布 数据分布 层次树 重复 检验 | ||
1.一种基于准标识属性泛化的k-匿名隐私保护方法,其特征在于:该方法包括:
1)对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树;
2)对于待发布数据表中的各个准标识属性,计算各个准标识属性的泛化层次高度、属性取值个数、属性取值频次和属性取值熵值;
3)对于待发布数据表中的各个准标识属性,按照泛化层次高度最大、属性取值频次最小、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化;
4)对步骤3)中全域泛化后的待发布数据表进行k-匿名模型检验;若符合k-匿名模型,则以步骤3)中全域泛化后的待发布数据表为最终发布数据表;否则,重复进行步骤2)、步骤3)和步骤4)。
2.根据权利要求1所述的基于准标识属性泛化的k-匿名隐私保护方法,其特征在于:所述步骤1)的具体过程如下:
步骤11)选取待发布数据表中的一个准标识属性,计算该准标识属性各个属性取值的频次;
步骤12)根据该准标识属性各个属性取值的频次分布,以及该准标识属性的业务层次建立该准标识属性的泛化层次树,使得:该准标识属性在全域泛化下,该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀;
步骤13)重复进行步骤11)和步骤12),直至待发布数据表中各个准标识属性的泛化层次树都已建立完成。
3.根据权利要求1所述的基于准标识属性泛化的k-匿名隐私保护方法,其特征在于:所述步骤2)的具体过程如下:
步骤21)选取待发布数据表中的一个准标识属性,计算该准标识属性的泛化层次高度,以及各个属性取值的个数、频次和熵值,即该准标识属性的泛化层次高度、属性取值个数、属性取值频次和属性取值信息熵值,其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的;
步骤22)重复进行步骤21),直至待发布数据表中各个准标识属性的泛化层次高度、属性取值个数、属性取值频次和属性取值熵值都已计算完成。
4.根据权利要求1所述的基于准标识属性泛化的k-匿名隐私保护方法,其特征在于:所述步骤3)的具体过程如下:
步骤31)若泛化层次高度最大的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤32);
步骤32)针于泛化层次高度最大的这些准标识属性,若属性取值频次最小的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤33);
步骤33)针于泛化层次高度最大和属性取值频次最小的这些准标识属性,若属性取值个数最多的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤34);
步骤34)针对泛化层次高度最大、属性取值频次最小和属性取值个数最多的这些准标识属性,选择属性取值熵值最小的准标识属性进行一个层次的全域泛化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西艾特信息化工程咨询有限责任公司,未经陕西艾特信息化工程咨询有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910128727.0/1.html,转载请声明来源钻瓜专利网。