[发明专利]一种面向关联规则挖掘的隐私数据保护方法无效
| 申请号: | 201010209518.8 | 申请日: | 2010-06-25 |
| 公开(公告)号: | CN101872361A | 公开(公告)日: | 2010-10-27 |
| 发明(设计)人: | 朱玉全;欧吉顺;孙蕾;陈耿 | 申请(专利权)人: | 镇江金全软件有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212003 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 关联 规则 挖掘 隐私 数据 保护 方法 | ||
技术领域
本发明涉及数据挖掘中隐私数据的保护技术,具体涉及一种面向关联规则挖掘的隐私数据保护方法。
背景技术
随着网络、数据库存储以及高性能处理器等技术的飞速发展,数据库中存储的数据呈爆炸式增长。日前,数据库系统可以很好地实现数据查询、删除和统计等功能,OLAP也能较好地进行数据的分析等工作,但这些技术并不支持对数据背后重要信息的挖掘,无法发现数据中隐藏的关系和规则,从而导致出现了”数据爆炸,知识贫乏”的现象。另外,20世纪下半叶发展起来的专家系统,也遇到了“知识获取”这一瓶颈问题。在此背景下,强有力数据分析工具的需求推动了数据挖掘技术的产生。
数据挖掘技术可以帮助人们从大量的数据中智能地、自动地抽取隐含的、事先未知的,具有潜在价值的知识或信息,它不仅被许多研究人员看作是数据库系统和机器学习等方面的一个重要研究课题,而且被许多产业界人士看作是一个能带来巨大回报的重要领域,从数据库中发现出来的规则和知识可以用在信息管理、查询响应、决策支持、过程控制等诸多方面。
在数据挖掘产生巨大财富的同时,随之产生的就是隐私泄露问题,据一份Web用户的权威调查表明,17%的被调查者表示会拒绝透露涉及到自己隐私的任何信息,27%的被调查者表示会经认真考虑后,决定是否会给予涉及到自己隐私的信息,而56%的被调查者表示,如果数据收集机构或数据使用者可以确保个人隐私信息得到有效保护,他们是可以提供涉及到自己隐私的信息。从上述调查结果可以看出,如果无法保证被调查者的隐私,所收集到的数据往往和真实的数据之间存在很大的差异甚至无法完成数据的收集工作,如果在这些错误的数据上进行数据挖掘,那么得到的结果必然是不准确的甚至是完全错误的。然而,可喜的是人们并没有因噎废食,在数据挖掘能够提供的益处面前,只要数据采集机构或使用者采取措施来保证个人的隐私,大部分数据拥有着还是愿意提供自己的隐私数据,隐私保护程度的高低将直接关系到是否能够获得足够真实的信息,从而影响到挖掘结果的可靠有用性。因而,如何在数据挖掘的过程中解决好隐私保护的问题已经成为数据挖掘领域中的一个研究热点,隐私保护数据挖掘技术的研究具有十分重要的理论和现实意义。
在1995年召开的第一届KDD会议上,基于隐私保护的数据挖掘就成为一个专门的研究主题。1999年,RakeshAgrawal在KDD99上作了一场精彩的有关隐私保护数据挖掘主题演讲,并将其作为未来的研究重点之一。自此以后,隐私保护数据挖掘越来越得到人们的高度重视,各种新方法和新技术层出不穷。
隐私保护关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一,一般情况下,它包含两个方面的问题,一是数据库中敏感关联规则的保护,所谓敏感关联规则是指数据拥有者不愿公开的关联规则,这些规则的不法使用可能会威胁到数据拥有者的权益。二是隐私数据的保护,隐私数据是指数据拥有者不愿公开的数据项,它可能包括姓名、身份证号、银行帐号、住址、工资等。本发明专利主要解决第二个问题。对于此问题,目前常用的方法是采取数据干扰技术,即通过数据变换或在数据中增加噪声等方法来对原始数据进行干扰,关联规则挖掘是在干扰后的数据集上进行的,因而,该类方法很有可能会影响到关联规则挖掘结果的可用性和有效性,即有可能挖掘出一些原始数据库中本来不存在的且有误导作用的规则,丢失一些原始数据库中存在的且非常有用的规则,从而失取了关联规则挖掘本身的价值。其实,隐私数据是相对的,是与载体相关联的,更换了或脱离了载体,数据就有可能失去其物理意义或敏感性,因此,我们可以通过交换事务之间项目所对应的值来实现隐私数据的保护。
本发明给出了一种基于项目交换技术的隐私数据保护方法,该方法既可以实现对隐私数据的有效保护,又能确保关联规则挖掘结果的有效可行性。
发明内容
本发明的目的在于针对现有隐私数据保护方法可能会影响到关联规则挖掘结果的可用性和有效性等问题,提出了一种新颖的面向关联规则挖掘的隐私数据保护方法,该方法既可以实现对隐私数据的有效保护,同时又不会产生过多的负面影响。
本发明提出的“面向关联规则挖掘的隐私数据保护方法”包括以下步骤:
(1)隐私数据项的确定
根据数据拥有者的意图确定要隐藏的隐私数据项。
(2)隐私数据项的修改
对原事务数据库中的事务进行分组,每k条记录为一组,不足部分补足。假设原事务数据库中有n条事务,分组数为m,则每一组对应一个k位数ai,i=1,2,...,m。隐私数据项的修改如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江金全软件有限公司,未经镇江金全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010209518.8/2.html,转载请声明来源钻瓜专利网。





