[发明专利]一种基于满足二次聚集的MLDM算法处理大数据的方法有效
申请号: | 201710268615.6 | 申请日: | 2017-08-12 |
公开(公告)号: | CN107305614B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 李晖;吴良俊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F16/22 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 满足 二次 聚集 mldm 算法 处理 数据 方法 | ||
本发明属于数据库的隐私保护技术领域,公开一种基于满足二次聚集的MLDM算法处理大数据的方法,在(l,d,e)‑MDAV算法的基础之上引入k‑means算法;在处理大数据集时,先将大数据集划分为若干个小数据集,再用(l,d,e)‑MDAV算法对每个小数据集进行处理,最后将处理后的数据合并,使整个数据集满足(l,d,e)‑diversity规则,通过改进能得到较好的算法时间复杂度和算法时间。本发明在l,d,e)‑MDAV算法的基础之上引入k‑means算法,提出新的MLDM算法,在处理大数据集时,先将大数据集划分为若干个小数据集,再用(l,d,e)‑MDAV算法对每个小数据集进行处理,最后将处理后的数据合并,使整个数据集满足(l,d,e)‑diversity规则,通过改进能得到较好的算法时间复杂度和算法时间。
技术领域
本发明属于数据库的隐私保护技术领域,尤其涉及一种基于满足二次聚集的MLDM算法处理大数据的方法。
背景技术
数据发布中的隐私保护问题最早在统计泄密控制领域被提出,之后才开始逐步渗透到整个信息技术领域。在统计泄密控制领域,主要采用微聚集、随机化、样本化、添加白噪声等方法实现信息的保护,在尽量保证处理后数据的数据统计性和可用性以及隐私信息安全的同时,保留更多的有用信息,平衡兼顾数据保密性和可用性的关系。经过多年来的发展,数据中发布的隐私保护技术主要围绕两方面进行研究,一面是面向用户的隐私保护技术,另一面是针对数据库的隐私保护技术。面向用户的隐私保护技术主要是以用户的权益为核心,保护用户发布的隐私数据安全,这种保护方法是个人用户在发布信息时或对信息进行增改减时,为数据提供的安全保护。面向数据库的隐私保护技术是通过对数据进行一定程度的修饰来隐藏真实的数据,从而保障数据在传输过程中不被黑客攻击或者窃取。
当前,针对数据库的隐私保护技术主要有三类方法。第一类,基于数据失真的隐私保护技术,这类技术主要是对原始数据进行扰动处理从而实现隐私保护,可是扰动后数据的可用性非常低;第二类,基于数据加密的隐私保护技术,这类技术主要应用在分布式环境下,解决不同服务器之间信息传递的安全性,多用基于密码学来保证隐私的安全,这种方法会产生较大的运算量,对数据库的信息处理能力要求比较高;第三类,匿名化保护,用的最多的就是k-匿名技术,该技术是通过对个人姓名、身份证号、学号等个人显示标识符进行加密或隐匿而达到对隐私数据保密的目的,但是常常攻击者也可能通过使用数据链接 的方法推测出隐私信息。
数据表的k-匿名是目前数据发布中最主要的隐私保护方法。1998年,L.Sweeneyand P.Samarati首次提出了k-匿名的概念。2002年,Sweeney发表文章,在文献中对k匿名技术作了更为细致的阐述,k-匿名模型作为一种较为完善的隐私保护算法渐渐引起信息安全领域许多学者的关注,并得到了广泛的研究和应用。至今为止,经过十多年的研究,k-匿名技术有了更多的优化和改进。但是,由于k-匿名算法本身的弊端,不能有效阻止标识符属性泄露,甚至不能阻止同质性攻击和背景知识攻击。文献中提出了优化的k-匿名算法,但是,优化的k-匿名问题是NP难题,也就是说,很难实现泛化和隐匿技术最优组合。所以众多学者各抒己见,如Machanavajjhala等人于2006年提出了L-多样性隐私保护方法,要求分组后每个等价类中的敏感属性值至少要有l个;Wong等人提出了(a,k)-anonymity匿名模型,要求每个等价类的敏感值频率不大于a;Li等人提出了t-closeness框架,该方法要求每个等价类中敏感值的分布要接近于其在原始数据表中的分布。在国内,也有不少专家学者在这一领域做出来很多成绩。
以上的这些研究算法主要集中在研究泛化隐匿技术的k-匿名化实现,泛化/隐匿技术存在许多不足,主要有泛化取值不合理、计算复杂度高和对数值型数据不适用等问题。在动态数据或者多敏感属性的数据中,目前没有能够避免敏感值的分级泄露的隐私保护模型,也没有能够保护有序分类和无序分类这两种分类方法的隐私模型。在处理数值型数据时,泛化/隐匿技术把数值型数据和分类型数据做相同的处理,这样做对分类型数据没有影响,但是对数值型数据就丢失了数值语义。此外,泛化/隐匿技术需要定义数据的泛化抽象层次和区间,对于数值型数据来说定义泛化层次和进行层次泛化的效率很低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710268615.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:码流传输方法、装置及网络摄像头
- 下一篇:一种全平台视频处理和播放方法