[发明专利]基于聚类匿名的隐私保护表数据共享方法有效

申请号：	201910752801.6	申请日：	2019-08-15
公开（公告）号：	CN110555316B	公开（公告）日：	2023-04-18
发明（设计）人：	刘丽苹;朴春慧	申请（专利权）人：	石家庄铁道大学
主分类号：	G06F21/62	分类号：	G06F21/62
代理公司：	石家庄轻拓知识产权代理事务所(普通合伙) 13128	代理人：	侯迎新
地址：	050043 河***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于匿名隐私保护数据共享方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于聚类匿名的隐私保护表数据共享方法，其特征在于：应用于共享静态数据表，步骤为：

Step 1、聚类处理：基于k-medios聚类的表数据记录划分，依据数据表中记录间的距离，使用k-medios聚类算法对共享静态数据表中的记录进行聚类，得到若干个簇；

Step 2、匿名处理：对经过Step 1处理得到的每个簇分别进行处理，首先将簇中的数据依据信息损失量进行分割，然后对得到的每个簇进行调整，使得每个簇均满足k-匿名条件、且不存在敏感属性值完全相等的情况，最后对其进行泛化处理，从而生成匿名数据表；

Step 3、差分隐私加噪处理：对表数据中的敏感属性值进行差分隐私处理；

Step 4、比较验证：最后通过示例分析及与经典k-匿名算法MDAV进行比较，进行方法的可用性以及隐私性验证；

步骤Step 1中，表数据记录划分的核心思想为：利用聚类技术将共享静态数据表中n条记录划分为多个簇，使得相似度高的记录划分到一组；同时为了能够满足接下来的k-匿名需求，在聚类结束后需对不满足匿名要求的簇进行调整，因此，结合k-medios聚类算法，表数据记录划分的具体流程如下：

Step 11：归一化处理，对数据表中的非敏感有序分类型属性进行量化，也就是量化为数值1,2,3,···,n，然后将该有序分类型属性看做数值型属性进行处理，进而对数据表中的所有非敏感属性中的数值型属性数据进行归一化处理，归一化公式如下：

式中，x_i’为一个数值型属性的归一化数值，x_i为一个数值型属性的原始数值，x_min为该属性的最小值，x_max为该属性的最大值；

Step 12：根据表数据记录间的非敏感属性的距离大小，利用k-medios聚类算法对表数据进行聚类处理，将表数据记录划分为k₁个簇；

Step 13：根据k-匿名参数k₂对不满足匿名要求的簇进行簇记录调整，若所划分的簇中的数据记录数目均大于k₂，则不进行调整；若存在所得簇C_i中的数据记录数小于k₂，则将距离簇C_i的中心点最近的记录添加到簇C_i中，同时保证该记录所在簇中的数据记录仍大于k₂；

Step 14：重复步骤Step 3，直到每个簇中的记录均大于等于k₂；

Step 15：将数据按照所属簇不同分割为不同的子数据表T1,T2,···,Tk₁，从而得到k₁张子数据表；

Step 12中，在使用k-medios聚类算法对记录进行划分时，由于数据表含有分类型属性、数值型属性两种类型的属性，在计算记录间距离时需要采用不同的数据距离计算方法，且在进行k-medios聚类算法时需要考虑聚类结果最优的问题，即最佳划分簇数k₁的选择过程为：

Step 121、数据表记录间距离计算公式：

在计算数据表记录间的距离时，由于在数据表中存在多种属性，因此需要将不同的属性分开计算，数值属性距离计算公式如公式2：

dist(x_i,x_j)＝|x_i-x_j|

(公式2)

分类型属性计算公式如公式3：

(公式3)

假设数据表中有m个数值型属性，n个分类型属性，因此，数据表中任意两条记录X_i、X_j的距离计算公式如公式4：

(公式4)

式中x_ip和x_jp分别为记录X_i和记录X_j的第p个数值型属性值，x_iq和x_jq分别为记录X_i和记录X_j的第q个分类型属性值；

Step 122、数据记录划分簇数k₁的确定：

k-medios聚类算法的使用是为了使相似记录划分到一组，为匿名化处理做准备，尽量减少匿名化过程带来的信息损失，因此在确定聚类的簇数目时，主要考虑簇内的相似度问题，因此通过组内平方误差和SSE来确定数据记录划分簇数k₁；而随着k₁的增加，每个簇内的数据记录将逐渐减少，簇内记录间的距离应越来越小，因此，SSE的值应随着k₁的增大而减小；故在通过SSE进行k₁值的确定时，关注其变化情况，当SSE随着k₁的增加减少的相对缓慢时，认为进一步增大k₁聚类效果变化不大，则该k₁值为最佳聚类数目；若将各个k₁的值与相应的SSE值表示在折线图中，则拐点处对应的k₁值即为最佳聚类数目；

Step 2中，经过表数据记录划分处理得到的k₁张子数据表，然后依次处理每张子数据表，其核心思想是：对子数据表内数据记录进行划分，使得生成的每个簇中的记录数目在[k₂,2k₂-1]之间，同时保证每个簇中的敏感属性取值不唯一，因此，表数据匿名处理算法实现的具体流程如下：

Step 21：判断数据集合中数据记录数目是否大于2k₂-1，若大于2k₂-1，则执行步骤Step22；

Step 22：在该数据集合内选取两条记录r₁和r₂作为两个初始簇，使得当r₁和r₂组成一个簇时，在该簇内的所有记录两两组合中信息损失量最大，并执行步骤Step 23；

Step 23：分别计算数据集合内每条记录划分到两个簇后的信息损失变化情况，并将该记录划分为使得信息损失量较小的簇中，调整数据记录，使得每个簇中的数据记录最少为k₂，并将生成的簇作为新生成的两个数据集合返回步骤Step 21；

Step 24：当所有数据集合中的数据记录数目均在[k₂,2k₂-1]之间，依次循环判断每个数据集合内是否存在敏感属性取值唯一的情况，若存在则执行步骤Step25；

Step 25：选取与该数据集合Q内敏感属性值不同的数据记录，同时保证若删除该数据记录，其所在数据集合中的数据记录数目仍大于等于k₂、且敏感属性值不唯一；

Step 26：计算若所选数据记录划分到相应数据集合Q后的信息损失变化量，并将使得信息损失量较小的数据记录划分到数据集合Q中；

Step 27：得到记录数目在[k₂,2k₂-1]之间、且不存在集合内部敏感属性取值唯一的情况的各个数据集合，并将各个集合进行泛化处理，得到匿名数据表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于石家庄铁道大学，未经石家庄铁道大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910752801.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于秘密分享算法的模型参数更新方法、装置和电子设备
下一篇：一种应用文件更改处理方法、装置及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于聚类匿名的隐私保护表数据共享方法有效

专利文献下载