[发明专利]基于敏感数据的脱敏方法及系统在审

申请号：	201910486536.1	申请日：	2019-06-05
公开（公告）号：	CN110188571A	公开（公告）日：	2019-08-30
发明（设计）人：	李适季;周莅涛;施全立;白林;陈天立;张宏伟	申请（专利权）人：	深圳市优网科技有限公司
主分类号：	G06F21/62	分类号：	G06F21/62
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	占丽君
地址：	518000 广东省深圳市南山区粤海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	脱敏替换算法匹配敏感数据数据量阈值时变量类型多数据源灵活配置预设噪声分组改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的基于敏感数据的脱敏方法，获取待脱敏数据；当待脱敏数据的数据量满足k‑means算法阈值时，采用k‑means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏；当待脱敏数据的数据量满足匹配替换阈值时，采用匹配替换方法对待脱敏数据进行脱敏；其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。该方法可灵活配置、支持多数据源、多种数据脱敏算法。

技术领域

本发明属于数据脱敏技术领域，具体涉及基于敏感数据的脱敏方法及系统。

背景技术

目前，个人隐私保护问题己经引起了公众的广泛关注，不仅在我国，在欧盟和美国也有新增立法保护个人信息。由此可见，如果不能解决由于大数据发布或共享导致的个人隐私泄露的问题，将给相关数据发布和使用方带来严重的法律风险，进而阻碍大数据技术的应用和发展。

针对隐私保护问题，Samarati和Sweeney于1998年首次提出了匿名化的概念，为了在数据共享过程中实现匿名化，最初使用传统脱敏算法通过对数据直接进行乱序、掩盖、统一泛化等操作达到保护用户隐私的目的。

泛化是对数据中某个准标识属性，通过将具体值替换为描述属性的取值范围，来达到匿名化操作的方法。泛化操作包括值泛化和域泛化。域泛化又称全域重编码，以电话号码为例，一个88888888被泛化成8888888*，实现表达一个更大的范围。以此类推，再被泛化成888888**,直至********。某属性的值域经多次泛化形成的域泛化层次结构被称为域泛化。泛化层次越高，信息损失越大。值泛化又称局域重编码，指的是将原始属性域中的每个值直接泛化成一般域中的某一值。值泛化关系同样可以决定值泛化层。相比域泛化，值泛化拥有更高的灵活性，可以有效降低泛化带来的信息损失。

隐匿，可视为最高级别的泛化，是指用最一般化的值代替原始值。即为用固定属性值代替该列的所有属性值。在数据匿名化操作的过程中，如果一些元组无法满足匿名规则的要求，一般会采取隐匿操作。被隐匿的属性值所在记录可以直接从数据表中删除，或者相应属性值用统一属性代替，以保持统计特性。

但是现有的脱敏方法也难以满足大数据背景下的隐私保护需求。

发明内容

针对现有技术中的缺陷，本发明提供一种基于敏感数据的脱敏方法及系统，可灵活配置、支持多数据源、多种数据脱敏算法。

第一方面，一种基于敏感数据的脱敏方法，

获取待脱敏数据；

当待脱敏数据的数据量满足k-means算法阈值时，采用k-means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏；

当待脱敏数据的数据量满足匹配替换阈值时，采用匹配替换方法对待脱敏数据进行脱敏；其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。

优选地，所述变量类型包括数值、字符串、时间和正则表达式。

优选地，当变量类型为数值时，所述匹配替换方法包括：

提取出所述待脱敏数据的数字符号；

计算所述数字符号的数值长度，并进行超限处理，以获得初始数值；