[发明专利]一种基于排序的微聚集匿名化方法有效
| 申请号: | 201711210204.8 | 申请日: | 2017-11-28 |
| 公开(公告)号: | CN108052832B | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 许国艳;宋健;李敏佳;平萍;张网娟;朱帅 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210098 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 排序 聚集 匿名 方法 | ||
1.一种基于排序的微聚集匿名化方法,其特征在于,该方法包括以下步骤:
(1)排序操作:基于Ql准标识符对数据集T划分为多个等价类,使得k-划分是所述数据集T基于Ql准标识符的,k是匿名参数,依据数值型属性值对所述数据集T排序;
所述排序操作的具体步骤包括:
(11)将所述数据集T,所述数据集T的记录总数n和所述数据集T的属性总数p作为输入,首先定义所述数据集T所有记录的索引,遍历所有属性Y1,Y2,...,Yp,然后遍历每个属性下的所有记录yij,yij表示第i个属性的第j个记录;其中,1≤i≤p,1≤j≤n;
(12)输出为每一个记录到所述记录相应的质心距离的测度SFj,表示为:
(13)在所述数据集T中,按照步骤(12)中所述SFj进行升序排列得到所述排序操作后的数据集T';
(2)基于排序的划分操作:从排序操作后的数据集T′初始化的第一条和最后一条极端记录开始分别系统地形成等价类,等价类的记录数保持在k之内;
所述基于排序的划分操作具体包括:
(21)将所述排序操作后的数据集T'作为输入,当所述排序操作后的数据集|T'|≥3k时,找到所述数据集T'中第一条记录和最后一条记录;
(22)分别以所述第一条和最后一条记录为等价类中心,与其最近的k-1条记录组成等价类s1、s2,并且把所述等价类在所述数据集T'中删除得到新的数据集T',所述新的数据集T'包含剩下的n-2k条记录;
(23)当所述新的数据集2k≤|T'|<3k时,找到所述新的数据集T'中第一条记录和最后一条记录;并分别以此为等价类中心,与其最近的k-1条记录组成等价类s3、s4,并且把此等价类在数据集T'中删除得到最新的数据集T';
(24)当所述最新的数据集|T'|<2k则自成一等价类s5;
(25)将所述步骤(21)、(22)、(23)和(24)中得到的所述等价类合并在一起形成一个等价类集合;
(3)聚集操作:以所述两个极端记录的中心点作为每个等价类的质心点,以所述等价类的均值代替所有的敏感属性值形成匿名等价类;
所述聚集操作具体步骤包括:
(31)计算每个等价类的质心平均值其中,表示每个等价类的质心平均值,yi表示第i个等价类的质心;
(32)用计算得到的每个等价类中的所述质心平均值逐个代替所述排序划分操作得到的等价类记录的各个值,形成匿名等价类。
2.根据权利要求1所述的基于排序的微聚集匿名化方法,其特征在于,步骤(1)中,所述使得k-划分是所述数据集T基于Ql准标识符是指符合公式且其中,ni是第i个等价类的记录数,g是指对所述数据集T进行划分的等价类的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210204.8/1.html,转载请声明来源钻瓜专利网。





