[发明专利]基于机器学习的集成隐私保护方法在审
申请号: | 201510947432.8 | 申请日: | 2015-12-16 |
公开(公告)号: | CN105512568A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 李宇佳 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 菅秀君 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 集成 隐私 保护 方法 | ||
技术领域
本发明涉及计算机科学技术领域,更具体地说,本发明涉及一种基于机器 学习的集成隐私保护方法。
背景技术
机器学习是研究怎样使用计算机模拟或实现人类学习活动的应用科学。它 关心的主要问题是:计算机程序如何随着经验积累自动提高性能。20世纪80年 代以来,机器学习作为实现人工智能的一种主要途径,引起了广泛的兴趣并成 为人工智能学科的中心课题之一。近年来,机器学习发展迅速,一些针对特定 学习任务的算法不断提出,关于学习理论的认识也开始逐步形成。随着机器学 习技术的日益成熟,它开始在商业、工业、科学研究等各个领域得到广泛的应 用,例如商务智能、信息检索、计算机视觉、自动车辆驾驶等。机器学习中的 集成学习基于训练数据建立若干个有差异的个体学习器,然后将它们各自的预 测结果进行整合以作为最终预测结果。
为了防止个人隐私信息的泄漏,在数据发布前需要对其在准标识符上的属 性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护。 概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失。
虽然数据库在所有领域都有广泛的应用,但是不同领域的应用场景却千差 万别。不仅数据的表现形式、存储方式、数量、更新频率等都各不相同,而且 隐私信息的表现形式、数量往往也是不同的。因此,众多领域和现实应用,都 急切需要一种符合其实际情况和特点、针对性强、效率/效果优的隐私保护方法。
但是,目前为止信息损失是隐私保护所带来的不幸后果之一。为了实现隐 私保护目的,有各种隐私保护匿名技术,其中有概化技术、压缩技术、Anatomy 技术等等,这些不同的匿名技术给用户呈现了不同的经过匿名化处理后的数据。 同时,带来了信息损失,一般而言,隐私保护要求的力度越大,信息损失也就 越大,数据的可用性也就越低。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种机 器学习中的集成学习的思想的匿名化技术,能够从实际的可操作性出发实现匿 名化隐私保护。
为了实现上述技术目的,根据本发明,提供了一种基于机器学习的集成隐 私保护方法,包括:
第一步骤:利用多个k-匿名算法生成覆盖数据库的原表的覆盖集,其中所 述原表由多个元组组成;
第二步骤:去除覆盖集中多余的元组以得到元组集;其中,对覆盖集中多 个相同元组进行部分删除以使得仅仅保留多个相同元组中的一个元组,由此使 得元组集中不存在重复的元组。
优选地,覆盖集中的每个元组集的大小都是在k和2k-1之间,k是正整数。
优选地,所述第一步骤包括:首先由多个k-匿名算法各自独立生成元组集, 并且利用这些元组集组成总集合,随后从总集合中选择部分元组集以组成覆盖 集。
优选地,在所述第一步骤中,针对属于总集合的每个元组集计算比率,所 述比率是用NCP函数度量的元组集的信息损失除以该元组集贡献的元组数量, 然后从中挑选比率最低的元组集加入覆盖集。
优选地,所述第二步骤包括:将覆盖集的元组集映射到原表的元组上;如 果特定元组同时出现在覆盖集的第一元组集与第二元组集中,如果第一元组集 与第二元组集的大小都等于k,则将第一元组集与第二元组集合并出新的第二元 组集,并且把第一元组集置空,同时新的第二元组集到原表的映射,去除第一 元组集到原表的映射。
优选地,如果第一元组集与第二元组集的大小没有都等于k,则从第一元组 集与第二元组集中比较大的一个中去掉所述特定元组。
本发明将机器学习中的集成学习的思想引入到隐私保护算法中,尤其是数 据库信息的隐私保护,把从多个匿名算法中得到的数据表,进行集成,能够在 原来算法的基础上降低概化带来的数据信息损失。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整 的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于机器学习的集成隐私保 护方法的流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构 的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或 者类似的标号。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510947432.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及电子设备
- 下一篇:参数检测方法及装置