[发明专利]一种面向多视图聚类挖掘的个性化隐私保护方法有效
| 申请号: | 201710717235.6 | 申请日: | 2017-08-21 |
| 公开(公告)号: | CN107688752B | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 徐东;李贤;张子迎;孟宇龙;张朦朦;姬少培;王岩俊;吕骏;方一成;王杰 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 视图 挖掘 个性化 隐私 保护 方法 | ||
1.一种面向多视图聚类挖掘的个性化隐私保护方法,其特征在于,包含以下步骤:
步骤一定义隐私关系;隐私数据集合D中的一条记录为多重组d=(d1,d2,…,dn),序偶di=ai,si∈d,ai为字段Ai上的原始数据值,si为ai对应的隐私度;称卡氏积D×D的下述子集为D上的隐私关系:
R={d,d'|d,d'∈D,di=ai,si∈d,d'i=a'i,s'i∈d',且si≥s'i};若D上d和d'具有隐私关系,即d,d'∈R,记为:d≥d';
步骤二输入隐私数据集合D,包括每个视图数据X(i),i=1,2,3,4,原始数据记录表和对应的隐私度记录表聚类簇数目期望值K,调节参数γ;
初始化隐私线序集Q为空,置偏序隐私层L=1,并生成隐私偏序集D',R';其中,记A'=(Ai,Ai+1,……,Ai+k)为原始数据模型A的一个属性子集(k≤n),对应的隐私度子模式为S'=(Si,Si+1,……,Si+k),D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D',并设R'为D'上的隐私关系,则称序偶D',R'为隐私偏序集合,简称隐私偏序;若数据集合对于隐私数据b∈B,且B中不存在隐私数据x,使得b≠x且b≥x,那么隐私数据b∈B称为B的一个极小隐私元;B的所有极小隐私元构成的集合为B的极小隐私集;隐私数据集合的第一个极小隐私集对应的偏序隐私层数为1,删掉第一个极小隐私集后,剩余数据集的极小隐私集对应的层数为2,依次类推,层数逐次增加1,直到删完所有数据为止;
步骤三判断D是否为空,若为空则得到隐私线序集Q,Q中存储三类值:隐私数据记录指针、偏序隐私层号和相对隐私秩,若D不为空执行下一步;
步骤四求解D的极小隐私集E,置E'=E,计算e在E内的相对隐私秩;其中,极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元;记隐私数据d的隐私秩为:
式中,d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s=(s1,s2,…,sn)和s'=(s'1,s'2,…,s'n);|·为求给定隐私数据的隐私秩的专用符号;符号表示若x>0,则置x=0;sign(·)为符号函数;
步骤五任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e,层数为L,置相对隐私秩为|e;置E'=E'-{e},判断E'是否为空,若不为空,反复本步骤;
步骤六置D=D-E,偏序隐私层数L=L+1,判断D是否为空,若不为空返回步骤三;
步骤七从步骤二中得到每个视图数据X(i),i=1,2,3,4,聚类簇数目期望值K,调节参数γ;
步骤八随机填充聚类指示矩阵G使得每行恰有一个1,其余全为0;生成对角矩阵D(i);
步骤九计算对角矩阵λ(i)为权重;
步骤十更新聚类中心矩阵
步骤十一更新聚类指示矩阵G:
步骤十二更新对角矩阵其中e(i)j是E(i)=X(i)-GC(i)的第j行;
步骤十三更新权重其中:
H(i)=Tr{(X(i)-C(i)GT)D(i)(X(i)-C(i)GT)T};
步骤十四重复步骤七至步骤十三,直至收敛或超过设定的执行次数;
步骤十五得到聚类指示矩阵G,各视图的聚类中心矩阵C(i)及权重λ(i),i=1,2,3,4;
步骤十六对S进行主成分分析,取第一主成分系数u(1)=(u1,u2,…,un)作为属性敏感度;
步骤十七求S每行记录sj=(sj1,sj2,…,sjn)的元组敏感度置Ts=(S1,S2,…,Sm)T;
步骤十八记第i个视图的样本矩阵表示为X(i),构造如下所示的多视图K-均值聚类目标函数:
式中,C(i)为第i个视图的聚类中心矩阵;G为聚类指示矩阵,由约束条件知,其每行恰有一个1,其余全为0,若Gjk=1,表明第j个样本在第k个聚类簇中;λ(i)为第i个视图的权重;γ是控制权重分布的调节参数;M为视图个数,本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图;
置X(1)=A,X(2)=S,X(3)=Ts,X(4)=Q,X={X(i)|i=1,2,3,4};
步骤十九分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字,对聚类簇降序排序,排序后的聚类簇序列记为V=(v1,v2,…,vK);
步骤二十产生K以内可重复的K个随机正整数序列R,并降序排序得R=(r1,r2,…,rK);
步骤二十一定义数据集合A',用以存放匿名后的数据,并置A'为空;
步骤二十二取A中的第t条记录at;基于G,查找at所属聚类簇vp;求vp的平均隐私度avgp;取at的隐私度高于avgp属性作为敏感属性,其余作为准标识符;对at进行rp-匿名操作,匿名后的记录存入A';重复步骤二十二m次,然后输出保护后的发布数据A'。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710717235.6/1.html,转载请声明来源钻瓜专利网。





