[发明专利]一种集成概化与消隐的高维数据匿名处理方法无效
申请号: | 201210042557.2 | 申请日: | 2012-02-23 |
公开(公告)号: | CN102637247A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 刘君强;蒋晓宁;余斌霄;甘志刚 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集成 数据 匿名 处理 方法 | ||
技术领域
本发明涉及信息处理与信息安全领域。本发明设计一种用于高维数据匿名处理的方法,为信息共享过程提供安全保护,在网络海量信息共享中有着广泛应用前景。
背景技术
匿名处理是信息共享过程中一种重要的安全保护手段。现有匿名处理方法主要针对低维的关系型数据。然而,现实应用特别是网络应用中,有大量高维数据必须进行匿名处理后才能共享。例如,网络销售数据[1]、网络搜索日志[2][3][4]、网络影视租赁记录[5]等,如果不经匿名处理直接共享这些数据,会造成敏感信息泄露[2][5]。
低维数据匿名处理的基本原则是由Samarati和Sweeney提出的k-anonymity[6],要点是保证任何个人信息与k-1个他人不可分辨,主要采用基于伪标识的方法来实施。将这些方法简单应用于高维数据[7][8][9][10],会导致高信息损失[7][8]、无法应用标准数据挖掘工具[9]、处理结果难以解释[9][10]。具体来讲,Terrovitis等[7]将适用低维数据的k-anonymity[6]移植到高维数据、提出km-anonymity,要求个人信息记录中的任意m个项目也出现在至少k-1个他人记录中,并采用全子树概化方法[11]来实施,其缺陷是易受异常项目影响而过度概化。Xu等[8]采用全消隐方法来进行匿名处理,其缺陷是对于稀疏数据集会导致过多的数据项被消隐。He等[9]采用局部概化方法[12],其缺陷在于破坏了数据的域互斥性,即匿名处理后数据项目的域可能相互重叠,使得数据分析结果很难解释。Ghinita等[10]采用带宽矩阵法进行随机化匿名处理,其缺陷是处理后数据会产生不合理的分析结果。此外,现有方法[7][8]还存在计算性能差的问题。
本发明的思路是集成概化与消隐来进行高维数据的匿名处理。通过集成使两种方法得到互补,即消隐少量异常数据项目从而避免大规模的概化操作,适度概化从而避免大量数据项目的消隐。本发明的集成方法有两个优点:一是匿名处理后的数据能够直接采用标准的数据挖掘工具进行分析,二是从中得出的分析结果在原始数据中必定也成立。这是由于集成方法保留数据的域互斥性。然而,集成方法的解空间远远大于采用任何单一方法的解空间,其计算复杂性大大增加。
因此,本发明提出三项创新性技术,一是自顶向下贪婪搜索法,二是最小安全威胁识别方法,三是多轮次求解策略,从而设计出一种全新的高维数据匿名处理方法,有效地降低信息损失、保证数据效用,并解决时间效率与空间可伸缩性的问题。
本发明处理方法数据效用大大高于三个参照方法[7][8][9],性能也人大优于其中二个参照方法[7][8],仅次于另一个参照方法[9]、但该参照方法[9]的数据效用最低。本发明方法处理后的数据能够应用标准数据挖掘工具进行分析,在网络海量信息共享中有着广泛应用前景。
参考文献:
[1]M.Atzori,F.Bonchi,F.Giannotti,D.Pedreschi.Anonymity preserving pattern discovery.VLDB Journal,2008.
[2]M.Barbaro,T.Zeller.A Face Is Exposed for AOL Searcher No.4417749.New York Times,August 9,2006.
[3]E.Adar.User 4XXXXX9:Anonymizing Query Logs.Query Log Analysis Workshop,WWW 2007.
[4]A.Korolova,K.Kenthapadi,N.Mishra,A.Ntoulas.Releasing search queries and clicks privately.WWW2009.
[5]A.Narayanan and V.Shmatikov.How to Break Anonymity of the Netflix Prize Dataset.ArXiv Computer Science e-prints,October 2006.
[6]P.Samarati and L.Sweeney.Generalizing data to provide anonymity when disclosing information.PODS1998.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210042557.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:连接器测试装置
- 下一篇:现浇混凝土楼板厚度控制模具
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置