[发明专利]一种集成概化与消隐的高维数据匿名处理方法无效

专利信息
申请号: 201210042557.2 申请日: 2012-02-23
公开(公告)号: CN102637247A 公开(公告)日: 2012-08-15
发明(设计)人: 刘君强;蒋晓宁;余斌霄;甘志刚 申请(专利权)人: 浙江工商大学
主分类号: G06F21/00 分类号: G06F21/00;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 集成 数据 匿名 处理 方法
【说明书】:

技术领域

发明涉及信息处理与信息安全领域。本发明设计一种用于高维数据匿名处理的方法,为信息共享过程提供安全保护,在网络海量信息共享中有着广泛应用前景。

背景技术

匿名处理是信息共享过程中一种重要的安全保护手段。现有匿名处理方法主要针对低维的关系型数据。然而,现实应用特别是网络应用中,有大量高维数据必须进行匿名处理后才能共享。例如,网络销售数据[1]、网络搜索日志[2][3][4]、网络影视租赁记录[5]等,如果不经匿名处理直接共享这些数据,会造成敏感信息泄露[2][5]。

低维数据匿名处理的基本原则是由Samarati和Sweeney提出的k-anonymity[6],要点是保证任何个人信息与k-1个他人不可分辨,主要采用基于伪标识的方法来实施。将这些方法简单应用于高维数据[7][8][9][10],会导致高信息损失[7][8]、无法应用标准数据挖掘工具[9]、处理结果难以解释[9][10]。具体来讲,Terrovitis等[7]将适用低维数据的k-anonymity[6]移植到高维数据、提出km-anonymity,要求个人信息记录中的任意m个项目也出现在至少k-1个他人记录中,并采用全子树概化方法[11]来实施,其缺陷是易受异常项目影响而过度概化。Xu等[8]采用全消隐方法来进行匿名处理,其缺陷是对于稀疏数据集会导致过多的数据项被消隐。He等[9]采用局部概化方法[12],其缺陷在于破坏了数据的域互斥性,即匿名处理后数据项目的域可能相互重叠,使得数据分析结果很难解释。Ghinita等[10]采用带宽矩阵法进行随机化匿名处理,其缺陷是处理后数据会产生不合理的分析结果。此外,现有方法[7][8]还存在计算性能差的问题。

本发明的思路是集成概化与消隐来进行高维数据的匿名处理。通过集成使两种方法得到互补,即消隐少量异常数据项目从而避免大规模的概化操作,适度概化从而避免大量数据项目的消隐。本发明的集成方法有两个优点:一是匿名处理后的数据能够直接采用标准的数据挖掘工具进行分析,二是从中得出的分析结果在原始数据中必定也成立。这是由于集成方法保留数据的域互斥性。然而,集成方法的解空间远远大于采用任何单一方法的解空间,其计算复杂性大大增加。

因此,本发明提出三项创新性技术,一是自顶向下贪婪搜索法,二是最小安全威胁识别方法,三是多轮次求解策略,从而设计出一种全新的高维数据匿名处理方法,有效地降低信息损失、保证数据效用,并解决时间效率与空间可伸缩性的问题。

本发明处理方法数据效用大大高于三个参照方法[7][8][9],性能也人大优于其中二个参照方法[7][8],仅次于另一个参照方法[9]、但该参照方法[9]的数据效用最低。本发明方法处理后的数据能够应用标准数据挖掘工具进行分析,在网络海量信息共享中有着广泛应用前景。

参考文献:

[1]M.Atzori,F.Bonchi,F.Giannotti,D.Pedreschi.Anonymity preserving pattern discovery.VLDB Journal,2008.

[2]M.Barbaro,T.Zeller.A Face Is Exposed for AOL Searcher No.4417749.New York Times,August 9,2006.

[3]E.Adar.User 4XXXXX9:Anonymizing Query Logs.Query Log Analysis Workshop,WWW 2007.

[4]A.Korolova,K.Kenthapadi,N.Mishra,A.Ntoulas.Releasing search queries and clicks privately.WWW2009.

[5]A.Narayanan and V.Shmatikov.How to Break Anonymity of the Netflix Prize Dataset.ArXiv Computer Science e-prints,October 2006.

[6]P.Samarati and L.Sweeney.Generalizing data to provide anonymity when disclosing information.PODS1998.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210042557.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top