[发明专利]一种基于满足二次聚集的MLDM算法处理大数据的方法有效
申请号: | 201710268615.6 | 申请日: | 2017-08-12 |
公开(公告)号: | CN107305614B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 李晖;吴良俊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F16/22 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 满足 二次 聚集 mldm 算法 处理 数据 方法 | ||
1.一种基于满足二次聚集的MLDM算法处理大数据的方法,其特征在于,所述基于满足二次聚集的MLDM算法处理大数据的方法在(l,d,e)-MDAV算法的基础之上引入k-means算法;在处理大数据集时,先将大数据集划分为若干个小数据集,再用(l,d,e)-MDAV算法对每个小数据集进行处理,最后将处理后的数据合并,使整个数据集满足(l,d,e)-diversity规则,通过改进能得到较好的算法时间复杂度和算法时间;
所述基于满足二次聚集的MLDM算法处理大数据的方法具体包括:
(1)任意选择c个对象设为初始聚类中心;
(2)其他数据对象分别计算各自与初始聚类中心的相似度,并将其他的数据对象分别划分到与之具有最小的相似度的聚类;重新计算新的聚类中心;
(3)重新计算所有变化的聚类中心(该聚类中所有对象的均值);
(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止,否则重复步骤(2);
(5)计算每一个较小的数据集的中心点计算距离最远的记录r,计算距离r最远的记录s;
(6)以r为中心,计算距离r最近的k-1条记录,计算这k条记录准标识符的质心计算等价组中敏感属性值的个数,若不足l个做如下处理:计算距离等价组最近的元组,观察其敏感属性,记为A,看A是否在等价组中出现过,若没有出现过,添加该元组,若出现过,继续搜索最近的元组,直到找到合适的元组添加进来;继续搜索周边的元组,计算其敏感属性值与内质心的差异值,看其是否大于等于e,满足条件加入该元组,直到加入d个这样的元组;最后用质心取代这k条记录;
(7)以s为中心,计算距离s最近的k-1条记录;计算这k条记录准标识符的质心;计算等价组中敏感属性值的个数,若不足l个做如下处理:计算距离等价组最近的元组,观察其敏感属性,记为A,看A是否在等价组中出现过,若没有出现过,添加该元组,若出现过,继续搜索最近的元组,直到找到合适的元组添加进来;继续搜索周边的元组,计算其敏感属性值与内质心的差异值,看其是否大于等于e,满足条件加入该元组,直到加入d个这样的元组;最后用质心取代这k条记录;
(8)若剩余元组数大于等于2k,则继续执行步骤(5)~(7);
(9)若剩余元组数介于[k,2k-1]之间,将这些记录自成一类,否则分别计算每个元组距离最近的类,并将其加入该类中;
(10)将剩余的不足k条记录隐匿;
(11)合并所有处理完的较小的数据集。
2.如权利要求1所述的基于满足二次聚集的MLDM算法处理大数据的方法,其特征在于,所述MLDM算法要求在处理大数据集时,引入k-means算法,再用(l,d,e)-MDAV算法进行匿名处理。
3.如权利要求1所述的基于满足二次聚集的MLDM算法处理大数据的方法,其特征在于,所述基于满足二次聚集的MLDM算法处理大数据的方法包括:
输入:n个对象的数据集T,参数c,参数l,参数d,匿名参数k,属性差异值e,准标识符QI;
输出:满足(l,d,e)-diversity规则的数据表T'。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710268615.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:码流传输方法、装置及网络摄像头
- 下一篇:一种全平台视频处理和播放方法