[发明专利]一种基于身份替代的隐私保护方法及系统有效
申请号: | 201710088276.3 | 申请日: | 2017-02-20 |
公开(公告)号: | CN106874789B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 康海燕;孟祥 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 身份 替代 隐私 保护 方法 系统 | ||
本发明公开了一种基于身份替代的隐私保护方法及系统,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数,可提高处理后处理的隐私性和可用性。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于身份替代的隐私保护方法及系统。
背景技术
隐私(privacy):指个人、组织等实体不愿意被外部获取的信息。泄露(disclosure):不希望发布的数据或信息,被明确的发布出来或通过发布的数据可能间接推断出准确度较高的信息,当发生以上情况时称发生了泄露。标识符(Identifier):一张数据记录表中能唯一标识一条记录的属性。例如原始数据表T0(如表1所示)中的病例编号,通过该编号,可以唯一的从所有病例中查找到该条记录,所以病例编号为标识符。数据表的标识符并不唯一,例如表中的身份证号码,也是该记录的标识符。
表1原始数据表T0
准标识符QI(Quasi-Identifier):准标识符是一个数据实体集的属性集合中的一组属性,通过该组属性,可以将一条记录从数据表中查询出来。表1中性别、年龄、身高组成了准标识符,通过三个属性的组合可以从表中查找出一条记录。例如:select*fromT0where性别=‘男’and年龄=‘25’and身高=‘175’,就可以查询到病例编号为4533747的整条记录获取该条记录的敏感属性(疾病)为骨折。
抑制与泛化:抑制是指针对标识符做不发布处理,因为标识符和某些属性有很强的查询能力,所以针对这些属性做抑制处理是比较恰当的选择。泛化指降低数据的精度,针对数值数据如年龄35可以泛化为30-40,使得原始数据包含在泛化后的结果中;针对字符串数据,可采用上位词来对数据进行泛化。
去除标识符后的匿名数据表T1(如表2所示),设一外部链接表T2(如表3所示)。
表2去除标识符的匿名数据表T1
表3外部链接数据表T2
链接攻击(Link-Attack):通过准标识符QI将两张或多张数据表链接,提高数据表维度,挖掘数据表中的隐私信息的攻击方式称之为链接攻击。通过对表T1和T2的准标识符的组合(性别、年龄)进行链接操作可以得到连接数据表Tlink(如表4所示),在表中原本被匿名的记录重新被标识,完全失去的匿名效果,造成了隐私泄露。这就是链接攻击的基本原理。
表4通过链接得到的数据表Tlink
表5满足k=2的k匿名数据表Tk
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710088276.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种敏感数据发布中的隐私保护方法
- 下一篇:一种计算设备运行方法及计算设备