[发明专利]一种隐私保护数据共享发布方法无效
| 申请号: | 201110097921.0 | 申请日: | 2011-04-19 | 
| 公开(公告)号: | CN102147814A | 公开(公告)日: | 2011-08-10 | 
| 发明(设计)人: | 倪巍伟;陆介平;崇志宏;黄茂峰 | 申请(专利权)人: | 东南大学 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/00 | 
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 | 
| 地址: | 210096 *** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 隐私 保护 数据 共享 发布 方法 | ||
技术领域
本发明涉及一种数据处理方法,特别是一种隐私保护数据共享发布方法。
背景技术
近年来聚类挖掘已在一些深层次数据应用中取得较大进展,但随着人们对数据隐私的日益关注,对数据进行共享挖掘也带来了隐私保护方面的问题。例如,通过对电子病历进行挖掘可以得到病症的聚类,但医疗机构若直接将原始数据提供给挖掘者,会导致病例数据暴露,泄露患者隐私。保险公司的理赔信息、银行卡交易等数据中隐含的聚类模式,对政府和企业决策具有重要意义,同时又都可能涉及个人隐私。
隐私保护数据发布需要在保护数据隐私和维持数据可用性间寻求一种折中,目前数据隐藏技术的主要思想是通过对原始个体数据取值的修改实现对微数据隐私安全的保护,这种修改将以较大的概率造成数据个体差异的改变;而聚类挖掘恰恰通过分析数据个体的相似和相异性,按照属于同一聚簇的数据对象具有较低的相异性,属于不同聚簇的数据对象间具有较高相异性的思想将数据划分成簇,聚类过程严重依赖于个体数据间的相异性。某种程度上,聚类与隐藏在原理上存在依赖数据个体差异与弱化数据个体差异的冲突,导致面向聚类的数据隐藏有别于面向其它数据应用的隐藏。面向聚类的数据隐藏发布更是由于以下几方面原因变得困难:
(1)保持聚类可用性的困难
较之面向计数查询或关联、分类挖掘时隐藏处理中需保持的数据可用性特征和约束,聚类可用性与数据分布及个体数据内部结构相似性的关系更为紧密。而数据隐藏正是通过修改个体数据特征实现保护数据隐私,这种修改极易引起个体数据内部结构相似性和数据分布的连锁变化。
(2)数值型数据的约束
数值型数据是聚类分析常见的数据类型。不同于类别型数据,数值型数据缺少显式的属性类别层次,数据匿名隐藏方法常用的泛化和抑制操作将失效或造成较大的信息丢失。对数值型数据集进行聚类分析,欧式距离是评价数据间相似性和相异性的基本指标,隐藏方法需要保证隐藏前后任意数据记录间的欧式距离关系不变,以确保隐藏发布后数据的聚类质量不变或改变较小。
已有的一些数据隐藏发布方法存在不适用于数值型数据隐藏或难以兼顾隐藏后数据聚类可用性与数据隐私安全性的不足。
发明内容
发明目的:针对上述现有技术无法很好的解决面向聚类挖掘的隐私保护数据共享发布问题,本发明的目的是提供一种基于阿基米德螺线旋转的隐私保护数据共享发布方法,以实现web环境下多数据源数据的安全共享与聚类可用性。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种隐私保护数据共享发布方法,包括如下步骤(如图1所示):
(1)用户向服务器提交包含n条记录的原始数据集D,D包含m个属性列I1,I2,...,Im;
(2)若所述步骤(1)中的m为奇数,则转到步骤(3),若m为偶数,则转到步骤(4);
(3)为D生成第m+1个属性列Im+1,D中n条记录在属性列Im+1上的取值均为0;
(4)将D中属性列随机两两分组,得到m/2或(m+1)/2个属性列对(Ii,Ij),1≤i≠j≤m+1;对于一个属性列对(Ii,Ij),Ii称为Ij的配对属性列,Ij也为Ii的配对属性列;
(5)对D中任意三个满足AB≥AC≥BC的不同的数据点A、B、C,生成基于阿基米德螺线旋转数据变换后保持所述三个数据点距离关系保持稳定的旋转参数取值范围βk,k∈[1,2,3,...,];这里保持稳定的意思是,原来A、B、C三个数据点距离关系是AB≥AC≥BC,则生成基于阿基米德螺线旋转数据变换后三个数据点距离关系原则上仍保持不变,仅在取等号时可能发生微小的变化;
(6)生成原始数据集D的阿基米德螺线旋转参数取值范围β0:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110097921.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





