[发明专利]一种基于满足二次聚集的MLDM算法处理大数据的方法有效

申请号：	201710268615.6	申请日：	2017-08-12
公开（公告）号：	CN107305614B	公开（公告）日：	2020-05-26
发明（设计）人：	李晖;吴良俊	申请（专利权）人：	西安电子科技大学
主分类号：	G06F21/60	分类号：	G06F21/60;G06F16/22
代理公司：	西安长和专利代理有限公司 61227	代理人：	黄伟洪
地址：	710071 陕西省***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于满足二次聚集 mldm 算法处理数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于满足二次聚集的MLDM算法处理大数据的方法，其特征在于，所述基于满足二次聚集的MLDM算法处理大数据的方法在(l,d,e)-MDAV算法的基础之上引入k-means算法；在处理大数据集时，先将大数据集划分为若干个小数据集，再用(l,d,e)-MDAV算法对每个小数据集进行处理，最后将处理后的数据合并，使整个数据集满足(l,d,e)-diversity规则，通过改进能得到较好的算法时间复杂度和算法时间；

所述基于满足二次聚集的MLDM算法处理大数据的方法具体包括：

(1)任意选择c个对象设为初始聚类中心；

(2)其他数据对象分别计算各自与初始聚类中心的相似度，并将其他的数据对象分别划分到与之具有最小的相似度的聚类；重新计算新的聚类中心；

(3)重新计算所有变化的聚类中心(该聚类中所有对象的均值)；

(4)计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止，否则重复步骤(2)；

(5)计算每一个较小的数据集的中心点计算距离最远的记录r，计算距离r最远的记录s；

(6)以r为中心，计算距离r最近的k-1条记录，计算这k条记录准标识符的质心计算等价组中敏感属性值的个数，若不足l个做如下处理：计算距离等价组最近的元组，观察其敏感属性，记为A，看A是否在等价组中出现过,若没有出现过，添加该元组，若出现过，继续搜索最近的元组，直到找到合适的元组添加进来；继续搜索周边的元组，计算其敏感属性值与内质心的差异值，看其是否大于等于e,满足条件加入该元组，直到加入d个这样的元组；最后用质心取代这k条记录；

(7)以s为中心，计算距离s最近的k-1条记录；计算这k条记录准标识符的质心；计算等价组中敏感属性值的个数，若不足l个做如下处理：计算距离等价组最近的元组，观察其敏感属性，记为A，看A是否在等价组中出现过,若没有出现过，添加该元组，若出现过，继续搜索最近的元组，直到找到合适的元组添加进来；继续搜索周边的元组，计算其敏感属性值与内质心的差异值，看其是否大于等于e,满足条件加入该元组，直到加入d个这样的元组；最后用质心取代这k条记录；

(8)若剩余元组数大于等于2k，则继续执行步骤(5)～(7)；

(9)若剩余元组数介于[k,2k-1]之间，将这些记录自成一类，否则分别计算每个元组距离最近的类，并将其加入该类中；

(10)将剩余的不足k条记录隐匿；

(11)合并所有处理完的较小的数据集。

2.如权利要求1所述的基于满足二次聚集的MLDM算法处理大数据的方法，其特征在于，所述MLDM算法要求在处理大数据集时，引入k-means算法，再用(l,d,e)-MDAV算法进行匿名处理。

3.如权利要求1所述的基于满足二次聚集的MLDM算法处理大数据的方法，其特征在于，所述基于满足二次聚集的MLDM算法处理大数据的方法包括：

输入：n个对象的数据集T，参数c，参数l，参数d，匿名参数k，属性差异值e，准标识符QI；

输出：满足(l,d,e)-diversity规则的数据表T'。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710268615.6/1.html，转载请声明来源钻瓜专利网。