[发明专利]一种敏感数据识别方法及装置在审
申请号: | 202110597331.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113177233A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 杜晋瑞;陈勇铨;周华;江俊 | 申请(专利权)人: | 上海英方软件股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/2455;G06F16/22 |
代理公司: | 上海国智知识产权代理事务所(普通合伙) 31274 | 代理人: | 潘建玲 |
地址: | 200011 上海市黄*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感数据 识别 方法 装置 | ||
本发明公开了一种敏感数据识别方法及装置,所述方法包括如下步骤:步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;步骤S2,扫描欲进行敏感数据识别的数据库,根据数据库的多个维度信息确定相应的敏感类型模型;步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。
技术领域
本发明涉及计算机信息安全技术领域,特别是涉及一种对数据库系统中含有的敏感数据识别的敏感数据识别方法及装置。
背景技术
敏感数据又称隐私数据,常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。目前,银行、保险、证券等金融机构保存的数据含有大量个人隐私的数据,这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私,他们就会面临严重的财务、法律或问责风险,同时在用户信任方面蒙受巨大损失。因此,有效可靠的敏感数据检测技术,相当重要。
在现有技术中,一般都是指定数据库对应的表名列名来确定是否进行脱敏,然而,这样的方式需要大量人工去完成,并有遗漏敏感数据的可能性,费事费力且效率低下。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种敏感数据识别方法及装置,以解决现有技术人工识别工作量大且可能遗漏敏感数据的问题,自动识别数据库是否含有敏感数据,并输出含有敏感数据的列及其类型。
为达上述目的,本发明提出一种敏感数据识别方法,包括如下步骤:
步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;
步骤S2,扫描欲进行敏感数据识别的数据库,根据其中各表的各维度信息确定相应的敏感类型模型;
步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。
优选地,步骤S1进一步包括:
步骤S100,根据通用的敏感数据定义,建立通用的敏感类型模型;
步骤S101,自定义敏感类型,根据自定义的敏感类型建立自定义的敏感数据模型;
步骤S102,定义并预设敏感数据匹配比率。
优选地,于步骤S2中,扫描欲进行敏感数据识别的数据库,提取所述数据库的库名、表名、表注释,针对各个表获取列名及列注释并进行判断,从而确定相应的敏感类型模模型。
优选地,步骤S3进一步包括:
步骤S300,对所述数据库的每张表每列数据随机抽取预设数量数据;
步骤S301,根据步骤S2确定的敏感类型模型对抽取的当前列数据一一进行匹配,确定其是否与步骤S2中确定的敏感类型模型匹配;
步骤S302,根据步骤S301的匹配结果与步骤S1定义的敏感数据匹配比率,确定当前列数据是否属于敏感类型。
优选地,于步骤S300中,若当前表当前列的数据量大于预设阈值时,则抽取预设阈值量的数据;若当前表当前列的数据量小于或等于预设阈值时,则将当前表当前列的数据全部抽取。
优选地,于步骤S302中,当根据步骤S301的匹配结果,与步骤S2中确定的敏感类型模型匹配的数据量与抽取总量的比值大于步骤S1定义的敏感数据匹配比率,则确定当前列数据属于敏感类型。
为达到上述目的,本发明还提供一种敏感数据识别装置,包括如下步骤:
敏感类型模型构建单元,用于建立敏感类型模型,并确定敏感数据匹配比率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海英方软件股份有限公司,未经上海英方软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110597331.8/2.html,转载请声明来源钻瓜专利网。