[发明专利]一种敏感数据识别方法及装置在审

申请号：	202110597331.8	申请日：	2021-05-31
公开（公告）号：	CN113177233A	公开（公告）日：	2021-07-27
发明（设计）人：	杜晋瑞;陈勇铨;周华;江俊	申请（专利权）人：	上海英方软件股份有限公司
主分类号：	G06F21/62	分类号：	G06F21/62;G06F16/2455;G06F16/22
代理公司：	上海国智知识产权代理事务所(普通合伙) 31274	代理人：	潘建玲
地址：	200011 上海市黄***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种敏感数据识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种敏感数据识别方法及装置，所述方法包括如下步骤：步骤S1，建立敏感类型模型，并确定敏感数据匹配比率；步骤S2，扫描欲进行敏感数据识别的数据库，根据数据库的多个维度信息确定相应的敏感类型模型；步骤S3，随机抽取所述数据库中每个表每列的若干数据，将其与确定的敏感类型模型匹配，根据匹配结果判断每列数据是否属于敏感类型。

技术领域

本发明涉及计算机信息安全技术领域，特别是涉及一种对数据库系统中含有的敏感数据识别的敏感数据识别方法及装置。

背景技术

敏感数据又称隐私数据，常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。目前，银行、保险、证券等金融机构保存的数据含有大量个人隐私的数据，这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私，他们就会面临严重的财务、法律或问责风险，同时在用户信任方面蒙受巨大损失。因此，有效可靠的敏感数据检测技术，相当重要。

在现有技术中，一般都是指定数据库对应的表名列名来确定是否进行脱敏，然而，这样的方式需要大量人工去完成，并有遗漏敏感数据的可能性，费事费力且效率低下。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种敏感数据识别方法及装置，以解决现有技术人工识别工作量大且可能遗漏敏感数据的问题，自动识别数据库是否含有敏感数据，并输出含有敏感数据的列及其类型。

为达上述目的，本发明提出一种敏感数据识别方法，包括如下步骤：

步骤S1，建立敏感类型模型，并确定敏感数据匹配比率；

步骤S2，扫描欲进行敏感数据识别的数据库，根据其中各表的各维度信息确定相应的敏感类型模型；

步骤S3，随机抽取所述数据库中每个表每列的若干数据，将其与确定的敏感类型模型匹配，根据匹配结果判断每列数据是否属于敏感类型。

优选地，步骤S1进一步包括：

步骤S100，根据通用的敏感数据定义，建立通用的敏感类型模型；

步骤S101，自定义敏感类型，根据自定义的敏感类型建立自定义的敏感数据模型；

步骤S102，定义并预设敏感数据匹配比率。

优选地，于步骤S2中，扫描欲进行敏感数据识别的数据库，提取所述数据库的库名、表名、表注释，针对各个表获取列名及列注释并进行判断，从而确定相应的敏感类型模模型。