[发明专利]一种基于满足二次聚集的MLDM算法处理大数据的方法有效

专利信息
申请号: 201710268615.6 申请日: 2017-08-12
公开(公告)号: CN107305614B 公开(公告)日: 2020-05-26
发明(设计)人: 李晖;吴良俊 申请(专利权)人: 西安电子科技大学
主分类号: G06F21/60 分类号: G06F21/60;G06F16/22
代理公司: 西安长和专利代理有限公司 61227 代理人: 黄伟洪
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 满足 二次 聚集 mldm 算法 处理 数据 方法
【说明书】:

发明属于数据库的隐私保护技术领域,公开一种基于满足二次聚集的MLDM算法处理大数据的方法,在(l,d,e)‑MDAV算法的基础之上引入k‑means算法;在处理大数据集时,先将大数据集划分为若干个小数据集,再用(l,d,e)‑MDAV算法对每个小数据集进行处理,最后将处理后的数据合并,使整个数据集满足(l,d,e)‑diversity规则,通过改进能得到较好的算法时间复杂度和算法时间。本发明在l,d,e)‑MDAV算法的基础之上引入k‑means算法,提出新的MLDM算法,在处理大数据集时,先将大数据集划分为若干个小数据集,再用(l,d,e)‑MDAV算法对每个小数据集进行处理,最后将处理后的数据合并,使整个数据集满足(l,d,e)‑diversity规则,通过改进能得到较好的算法时间复杂度和算法时间。

技术领域

本发明属于数据库的隐私保护技术领域,尤其涉及一种基于满足二次聚集的MLDM算法处理大数据的方法。

背景技术

数据发布中的隐私保护问题最早在统计泄密控制领域被提出,之后才开始逐步渗透到整个信息技术领域。在统计泄密控制领域,主要采用微聚集、随机化、样本化、添加白噪声等方法实现信息的保护,在尽量保证处理后数据的数据统计性和可用性以及隐私信息安全的同时,保留更多的有用信息,平衡兼顾数据保密性和可用性的关系。经过多年来的发展,数据中发布的隐私保护技术主要围绕两方面进行研究,一面是面向用户的隐私保护技术,另一面是针对数据库的隐私保护技术。面向用户的隐私保护技术主要是以用户的权益为核心,保护用户发布的隐私数据安全,这种保护方法是个人用户在发布信息时或对信息进行增改减时,为数据提供的安全保护。面向数据库的隐私保护技术是通过对数据进行一定程度的修饰来隐藏真实的数据,从而保障数据在传输过程中不被黑客攻击或者窃取。

当前,针对数据库的隐私保护技术主要有三类方法。第一类,基于数据失真的隐私保护技术,这类技术主要是对原始数据进行扰动处理从而实现隐私保护,可是扰动后数据的可用性非常低;第二类,基于数据加密的隐私保护技术,这类技术主要应用在分布式环境下,解决不同服务器之间信息传递的安全性,多用基于密码学来保证隐私的安全,这种方法会产生较大的运算量,对数据库的信息处理能力要求比较高;第三类,匿名化保护,用的最多的就是k-匿名技术,该技术是通过对个人姓名、身份证号、学号等个人显示标识符进行加密或隐匿而达到对隐私数据保密的目的,但是常常攻击者也可能通过使用数据链接 的方法推测出隐私信息。

数据表的k-匿名是目前数据发布中最主要的隐私保护方法。1998年,L.Sweeneyand P.Samarati首次提出了k-匿名的概念。2002年,Sweeney发表文章,在文献中对k匿名技术作了更为细致的阐述,k-匿名模型作为一种较为完善的隐私保护算法渐渐引起信息安全领域许多学者的关注,并得到了广泛的研究和应用。至今为止,经过十多年的研究,k-匿名技术有了更多的优化和改进。但是,由于k-匿名算法本身的弊端,不能有效阻止标识符属性泄露,甚至不能阻止同质性攻击和背景知识攻击。文献中提出了优化的k-匿名算法,但是,优化的k-匿名问题是NP难题,也就是说,很难实现泛化和隐匿技术最优组合。所以众多学者各抒己见,如Machanavajjhala等人于2006年提出了L-多样性隐私保护方法,要求分组后每个等价类中的敏感属性值至少要有l个;Wong等人提出了(a,k)-anonymity匿名模型,要求每个等价类的敏感值频率不大于a;Li等人提出了t-closeness框架,该方法要求每个等价类中敏感值的分布要接近于其在原始数据表中的分布。在国内,也有不少专家学者在这一领域做出来很多成绩。

以上的这些研究算法主要集中在研究泛化隐匿技术的k-匿名化实现,泛化/隐匿技术存在许多不足,主要有泛化取值不合理、计算复杂度高和对数值型数据不适用等问题。在动态数据或者多敏感属性的数据中,目前没有能够避免敏感值的分级泄露的隐私保护模型,也没有能够保护有序分类和无序分类这两种分类方法的隐私模型。在处理数值型数据时,泛化/隐匿技术把数值型数据和分类型数据做相同的处理,这样做对分类型数据没有影响,但是对数值型数据就丢失了数值语义。此外,泛化/隐匿技术需要定义数据的泛化抽象层次和区间,对于数值型数据来说定义泛化层次和进行层次泛化的效率很低。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710268615.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top