[发明专利]一种模式信息损失最小化的序列类数据隐私保护方法有效
申请号: | 201010298698.1 | 申请日: | 2010-09-30 |
公开(公告)号: | CN101964034A | 公开(公告)日: | 2011-02-02 |
发明(设计)人: | 陈珂;寿黎但;陈刚;胡天磊;尚璇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00;G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模式 信息 损失 最小化 序列 数据 隐私 保护 方法 | ||
技术领域
本发明涉及数据库系统、数据隐私与模式信息提取技术,特别是涉及一种模式信息损失最小化的序列类数据隐私保护方法。
背景技术
时间序列数据被公认为是自然界和人类社会中一类非常重要的数据,其应用范围包括金融分析和社交行为追踪等重要领域。近几年来,传感器网络,RFID和无线定位设备的快速发展,更加凸显了时间序列数据的重要性。但是,值得注意的是,时间序列数据中也包含着大量的隐私信息,如果不加以适当的保护,数据拥有者对数据隐私的担忧将极大的桎梏相关应用的发展。
目前,时间序列数据的隐私保护问题还没有得到很好的解决。主要原因是时间序列数据与传统表数据相比,其数据特征相对复杂。时间序列数据的各个属性在时间上存在一种前后依赖的关系,整体表现为一种模式信息。模式匹配是时间序列数据的一类重要查询。
k匿名是传统表数据领域的一类重要的隐私保护技术。但是,如果将这种方法直接应用于时间序列数据,其缺陷十分明显。因为k匿名所要求的属性值泛化会使时间序列的模式信息遭到严重破坏,从而使得数据可用性大大降低。目前,一些与时间序列相关的隐私保护技术也各自存在缺陷。TGA是一种基于干扰的匿名技术,首先将时间序列进行分组,然后在组内随机重建时间序列,这种方法导致的模式信息损失也非常之大。BFP2KA是一种基于字符串的隐私保护技术,通过构建前缀树并对其进行剪枝来实现k匿名。虽然BFP2KA号称能够保留模式,但其所谓的模式仅限于字符串的精确匹配,通用性受到很大的限制。
发明内容
本发明的目的在于提供一种模式信息损失最小化的序列类数据隐私保护方法,基于k匿名技术,构建出一个新的匿名模型,即(k,P)匿名模型,在有效保护隐私的同时达到模式信息损失最小化的效果,有效的解决了时间序列的隐私保护问题。
本发明采用的技术方案的步骤如下:
1)建立一个广义的时间序列模式定义模型,根据这个模型以及实际应用的模式挖掘任务需求,选择符合实际应用需求的模式定义函数集;
2)根据步骤1)中提出的模式定义函数集,确定模式映射函数,时间序列的属性分为标识属性,QI属性和敏感属性三种,时间序列的模式特征由模式映射函数基于QI属性来进行提取;
3)根据时间序列的属性值以及时间序列的模式特征,定义隐私攻击类型,构建(k,P)匿名模型以保护时间序列数据隐私;
4)根据上述步骤2)中所述的时间序列的模式特征,衡量整个原始数据集中任意两条时间序列之间的模式相似性,构建P子组,以达到模式信息损失最小化的效果;
5)基于步骤4)中形成的P子组,分析任意两个P子组之间的QI属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求;
6)定义(k,P)匿名模型的信息损失衡量策略,并分析其隐私泄露概率,完成对(k,P)匿名模型的可用性评估,同时根据分组结果,对时间序列数据进行属性值的泛化,完成数据发布。
步骤1)中选用的模式定义模型,兼容已有文献中所有的模式定义方式,对于一条具体的时间序列r,其模式定义函数集形式化为p(r)=<f1,f2,...,fm>,m为系统变量,其中,fi(1≤i≤m)为任意两个或两个以上属性的相关性函数。
步骤2)中的模式特征应满足以下两个条件:a)由原始时间序列经过特定的模式映射函数得出;b)可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取,并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。
步骤3)中构建的(k,P)匿名模型是一个双层隐私保护模型,其具体含义如下:
a)在第一层约束中,整个原始数据集被要求在QI属性上满足k匿名的条件;
b)在第二层约束中,在每一个k匿名组内,要求每一条时间序列的模式特征都至少与其他P-1条时间序列相同。
步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。
步骤6)中提到的信息损失,包括属性值信息损失以及模式信息损失两部分,属性值信息损失由于属性值泛化而产生,模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异,在(k,P)匿名模型约束下,证明在最坏情况下的隐私泄露概率为1/P。
本发明具有的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010298698.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置