[发明专利]一种智能化自适应敏感数据识别系统及方法有效

申请号：	201811469970.0	申请日：	2018-11-28
公开（公告）号：	CN109344258B	公开（公告）日：	2021-11-12
发明（设计）人：	陈天莹;李霄	申请（专利权）人：	中国电子科技网络信息安全有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/38;G06F40/30
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	钱成岑
地址：	610041 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能化自适应敏感数据识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的自适应的敏感数据识别方式，解决了大数据环境下敏感数据识别存在的问题；本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题，有效提升了敏感数据识别的工作效率；本发明通过挖掘敏感数据的语义特征，提升了敏感数据识别的准确率；本发明结合基于文本内容、元数据与知识库三种敏感数据识别方式，优化敏感数据识别流程，提升敏感数据识别的准确率与效率。本发明提出了敏感类型自适应管理，解决了新的敏感类型增加困难的问题，提升了敏感类型对实际需求的灵活适应程度。

技术领域

本发明涉及计算机技术与信息安全的交叉技术领域，具体是一种基于大数据的智能化敏感数据识别系统及方法。

背景技术

在大数据时代，数据规模庞大、增长迅速、类型繁多、结构各异，且描述不规范，且这些数据中包含大量敏感数据，且85％为非结构化数据，这对敏感数据识别的高效性和准确性都提出了巨大的挑战。

传统的敏感数据发现方式主要采用基于人工定义及正则表达式两种方式。

1、基于人工定义的方式是通过定义关键词或者元数据信息，之后匹配关键词与元数据信息发现业务系统中的敏感数据；

2、基于正则表达式的方式是通过研究敏感数据的特征，按照敏感数据的结构组成规律，定义正则表达式，之后依据正则表达式匹配业务系统中的敏感数据。

但是随着数据量暴增并且类型越趋复杂，传统的敏感数据发现方式的弊端越来越明显，主要问题如下：

1、人工定义敏感关键词及元数据工作越来越繁重，且效率低下；

2、部分敏感数据具有结构特征，如身份证号、银行卡号等敏感类型，可以采用正则表达式进行匹配，但是对于没有结构特征的敏感数据，如地址、人名等敏感类型，无法采用正则表达式进行敏感数据发现；

3、正则表达式方式需要研究每类敏感数据的特征才能进行敏感数据发现，随着敏感类型增加，正则表达式会越来越多，直接影响到敏感数据发现的效率，且规则库维护困难，浪费资源；

4、基于正则表达式和人工定义敏感关键词和元数据仅能识别符合规则及匹配成功的敏感数据，具有敏感语义的敏感数据会遗漏，降低敏感数据识别的准确率，无法防止敏感数据的泄露；

5、当敏感需求出现变动时，需要耗费大量时间和精力对新的敏感类型进行修改。

因此，在大数据背景下，亟需新的方式来提升敏感数据发现的准确率与效率。

发明内容

为了达到上述目的，本发明提出一种智能化自适应敏感数据识别系统及方法。

本发明的一种智能化自适应敏感数据识别系统，包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块；所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块；所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块；所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块；所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块；所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技网络信息安全有限公司，未经中国电子科技网络信息安全有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811469970.0/2.html，转载请声明来源钻瓜专利网。

上一篇：文本情感识别方法及装置、电子设备、存储介质
下一篇：一种基于多层划分框架的RDF分布式存储方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种智能化自适应敏感数据识别系统及方法有效

专利文献下载