[发明专利]将数据匿名化的方法和系统在审

专利信息
申请号: 201410680565.9 申请日: 2014-11-24
公开(公告)号: CN104732154A 公开(公告)日: 2015-06-24
发明(设计)人: A·格考拉拉斯-迪瓦尼斯;G·A·索特尔 申请(专利权)人: 国际商业机器公司
主分类号: G06F21/60 分类号: G06F21/60;G06F17/30
代理公司: 北京市中咨律师事务所 11247 代理人: 于静;张亚非
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 匿名 方法 系统
【说明书】:

技术领域

本公开一般涉及数据匿名化,并且更特别地涉及具有关系和序列数据部分的数据的匿名化,所述序列数据部分可能是序列的序列。

背景技术

近年来,人们一直在见证着数据爆炸:当今数据的90%仅在过去两年中就已经产生,其中当今可用的信息量可以泽字节的数量级估测。这些数据来自所部署的传感器、社交网站、移动电话应用、呼叫详细记录、电子病历(EMR)系统、电子商务站点等。

分析该丰富且大量的数据为公司的不同商业部门的增长提供了显著的机会,例如,除了许多其他的以外,包括医疗保健、电信、银行业务以及更智能的城市管理。然而,这些数据集的大部分是专有的、并且许多包含个人和/或商业敏感信息。敏感数据的示例包括患者记录、特殊房屋信息、税务记录、客户购买记录、移动呼叫详细记录(CDR)等。这样的数据集的非常敏感的性质禁止它们出于分析和/或其他目的而被外包,除非适当地利用隐私增强技术来提供足够的保护。

在当今可用的隐私增强技术当中,隐私保护数据公布领域的目标在于在记录层面保护隐私。该领域包括这样的技术,其按照关于个体的敏感信息得到保护,同时数据保持有用于支持期望的目的的方式变换并随后公布个人特定数据。该领域中的方法可以被分类为扰动的(诸如数据屏蔽、噪声添加、微聚合、数据交换和舍入)和非扰动的(诸如数据抑制和数据泛化)。扰动方法使原始数据值失真并从而未能维持数据真实性。此外,已经证明扰动方法通常导致低数据效用;因此,通常偏向于非扰动方法。这些非扰动方法通过按照在记录(个体)层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作。在非扰动方法当中,由于数据泛化会导致更高效用的数据集,因此数据泛化通常优先于抑制。

用于隐私保护数据公布的最流行的非扰动模型是k-匿名化。该模型要求至少k个记录在一组被称为准标识符的潜在标识属性上具有相同的值,其中每个记录对应于发布表中的个体。不同于可以孤立地用于重新识别个体的直接(或明确)标识符(诸如名称、社会保险号、信用卡号码等),准标识符表面上看是无害属性(例如,邮政编码、性别、出生日期等),其在被组合使用时可以导致身份批露。k-匿名化通过保证攻击者不能以1/k以上的概率重新识别所发布的数据集中的个体来对抗身份批露攻击,其中k为所有者指定的参数。最初被提出用于关系数据的k-匿名化模型在这以后已经适应于各种数据,包括集值数据、移动性、纵向和时间序列数据、数据流、社交图和文本数据,并且已经在若干真实世界系统中被实现。

尽管已经提出用于保护不同数据类型的许多k-匿名化方法,但是所有现有解决方案都是为特定种类的数据提供保护,例如为关系数据表或为交易(集值)数据或为社交图或为时间数据等提供保护。

尽管提供这样的用于将个体的记录匿名化的单一方法是高度合乎期望的,但是这样的方法是有挑战性的:其不仅孤立地考虑一种特定种类的数据,而且保护数据集,在该数据集中,记录包括两种不同种类的数据:关系部分和交易(集值)部分。例如,假设存在具有横跨这两种数据的知识的攻击者,即,他们可以知道个体的某些关系属性值对(例如,一些人口统计资料)以及集值属性的一些项目(例如,该个体已经购买的一组产品)。在该上下文中,把由两种不同种类的数据组成的个体记录匿名化是非常具有挑战性的任务,特别是因为:

1)单独地匿名化每种数据(例如,通过使用与该种数据相关的现有k-匿名化技术)不能向个体提供针对具有横跨两种(或更多种)数据的知识的攻击者的隐私保护。

2)以最小信息损失构造最佳解决方案是NP困难问题。

3)流行的多目标优化策略(诸如词典方法、传统加权公式或帕累托最优方法)不适用于这些问题。实际上,在一种数据上采用的良好匿名化决定可能被证明为对另一种数据是灾难性的。

发明内容

用于匿名化由关系部分和序列部分组成的数据集的系统、方法和计算机程序产品,其中序列部分可以本身由表示序列的序列的数据组成。

通常在过多的真实世界应用中遇到这样的数据集,包括医疗保健(例如,电子病历既报告患者人口统计资料又报告药物和诊断信息,其都带有时间戳)和社会福利(例如,特殊房屋注册机构中的公民记录由人口统计资料和居住占用信息组成,其都是序列的序列形式)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;,未经国际商业机器公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410680565.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top