[发明专利]一种基于大数据的隐私数据分级保护方法在审
申请号: | 202011018209.2 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112100670A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 周丽君 | 申请(专利权)人: | 周丽君 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F21/60;G06F16/245 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610213 四川省成都市天府新区牧*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 隐私 分级 保护 方法 | ||
本发明公开了一种基于大数据的隐私数据分级保护方法,包括以下步骤:1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词。本申请的技术方案以隐私数据中的高频词作为关键词并计算关键词的敏感度值,以敏感度值作为隐私数据的分级标准,使得隐私数据的分级有一个定量的标准,使得隐私数据的分级准确,方便对隐私数据进行保护。
技术领域
本发明涉及一种基于大数据的隐私数据分级保护方法,属于数据库领域。
背景技术
互联网、云计算、大数据等信息技术的蓬勃发展,催生了许多开放互联的信息网络(Information Network)。在这些信息网络中,用户数据往往分散存储在网络中多个服务提供者(Service Provider,简称:SP)中,如在医疗信息网络中,患者的病历信息往往存储在多家医院。通过分布式查询处理,对分散在各个SP的数据进行汇聚、关联与分析,不仅是用户自身的直接需求,更是挖掘数据价值、便捷公共管理、推动社会发展的必然需求。但是,这些数据往往包含大量隐私信息(private information),简单地将这些数据汇聚、关联、分析并进行公开,会导致隐私泄露,引发严重的社会问题与安全问题。因此,隐私数据的保护越来越受到人们重视,而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。
大数据具有海量的数据规模、多样的数据类型和价值密度低的特点,所以对于大数据中的隐私数据,难以用人工分级、人工复核的方式进行,并且用户对于隐私数据的兴趣敏感度也难以通过人工方式进行查询统计,造成了大数据中的隐私数据的分级调整困难。
发明内容
针对现有技术存在的不足,本发明提供一种基于大数据的隐私数据分级保护方法,以隐私数据中的高频词作为关键词并计算关键词的敏感度值,以敏感度值作为隐私数据的分级标准,使得隐私数据的分级有一个定量的标准,使得隐私数据的分级准确,方便对隐私数据进行保护。
为解决上述技术问题,本发明采取的技术方案是,一种基于大数据的隐私数据分级保护方法,包括以下步骤:
1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;
2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;
3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词;
4)重复步骤2)至步骤3)的操作,直至遍历全部隐私程度等级;
5)对隐私程度等级高的关键词的存储目录内存储的数据进行加密。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1)中,获取关键词的方法为:搜索数据库内待处理的隐私数据,提取数据库内待处理的隐私数据中的高频词,将提取的高频词作为高频词集合。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1)中,将获取的关键词按照隐私程度分为不同的等级的步骤包括:
1-1)遍历高频词集合中的全部高频词,计算高频词集合中任意两个高频词之间的相似度;
1-2)设置相似度阈值,将相似度处于相似度阈值内的两个高频词归于同一个关键词内,以此获得全部关键词;
1-3)通过数据库服务器获取外部服务器访问每个关键词的访问频次;
1-4)依据关键词的访问频次,计算包含此关键词的数据的访问信任度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于周丽君,未经周丽君许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011018209.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置