[发明专利]敏感数据多层识别方法有效

申请号：	202111194834.7	申请日：	2021-10-14
公开（公告）号：	CN113642030B	公开（公告）日：	2022-02-15
发明（设计）人：	吕丹;洪俊鑫	申请（专利权）人：	广东鸿数科技有限公司
主分类号：	G06F21/60	分类号：	G06F21/60
代理公司：	广州恒成智道知识产权代理有限公司 44575	代理人：	刘挺
地址：	510663 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感数据多层识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种敏感数据多层识别方法，在获取待测字段的数据单元样本，并确定各数据单元匹配的敏感分类规则后，根据敏感分类规则对数据单元进行匹配计算，并根据匹配计算确定匹配的数据单元个数与数据单元样本总数的比值，获得第一敏感规则识别度。进一步地，将待测字段加载到敏感数据识别模型中，获得敏感数据识别模型输出的第二敏感规则识别度，最后判定待测字段属于第一敏感规则识别度和第二敏感规则识别度中的较大者的对应类型。基于此，通过敏感数据识别模型提高对不规范的待测字段的识别准确性。

技术领域

本发明涉及数据安全技术领域，特别是涉及一种敏感数据多层识别方法。

背景技术

随着互联网的迅速发展，数据安全问题引发了全民的广泛关注，个人信息及敏感信息泄露的安全事件，可能引发严重的网络犯罪。而传统敏感数据发现技术对于不规范敏感数据的识别率特别低，容易出现遗漏导致敏感数据泄露风险。

在传统的敏感数据发现技术中，对敏感数据进行识别和定位是基于正则表达式匹配、关键字码表映射、数据类型定义判别、数据特征计算等技术手段，对于传统技术手段，能准确发现敏感数据的前提是数据质量比较高的情况，由于存在某些企业的数据采集流程不规范导致数据质量比较差的情况，例如客户地址字段中存在一些特殊字符、缺失省市区等关键识别信息、非地址数据等，运用传统技术手段的识别准确率特别低，无法满足企业对敏感数据发现准确性的要求，而且过多地依赖人工干预也会提高企业的生产成本，同时也会因为肉眼检查遗漏间接导致用户隐私数据泄露。

由此可见，传统敏感数据发现技术还存在以上缺陷。

发明内容

基于此，有必要针对传统敏感数据发现技术还存在的缺陷，提供一种敏感数据多层识别方法。

一种敏感数据多层识别方法，包括步骤：

获取待测字段的数据单元样本，并确定各数据单元匹配的敏感分类规则；其中，数据单元样本包括多个数据单元；

根据敏感分类规则对数据单元进行匹配计算；

根据匹配计算确定匹配的数据单元个数与数据单元样本总数的比值，获得第一敏感规则识别度；

在第一敏感规则识别度大于预设敏感阈值时，判定待测字段属于敏感分类规则的对应类型。

上述的敏感数据多层识别方法，在获取到获取待测字段的数据单元样本，并确定各数据单元匹配的敏感分类规则后，根据敏感分类规则对数据单元进行匹配计算，并根据匹配计算确定匹配的数据单元个数与数据单元样本总数的比值，获得第一敏感规则识别度。在第一敏感规则识别度大于预设敏感阈值时，判定待测字段属于敏感分类规则的对应类型。基于此，通过待测字段内各数据单元的规则匹配，自动识别作为待测字段的敏感数据类型的敏感分类规则的对应类型。同时以预设敏感阈值的限定，提高敏感分类规则的对应类型作为识别结果的准确率。

在其中一个实施例中，确定各数据单元匹配的敏感分类规则的过程，包括步骤：

对数据单元进行正则表达式计算，计算出数据单元所匹配的敏感规则。

在其中一个实施例中，根据敏感分类规则对数据单元进行匹配计算的过程，包括步骤：

在敏感分类规则存在对应的敏感数据特征码表时，根据敏感数据特征码表对数据单元的字符串特征标识进行匹配计算。

在其中一个实施例中，根据敏感分类规则对数据单元进行匹配计算的过程，包括步骤：

在敏感分类规则需要进行强校验时，根据强校验对应的数据规则对数据单元进行匹配计算。

一种敏感数据多层识别方法，包括步骤：

获取待测字段的数据单元样本，并确定各数据单元匹配的敏感分类规则；其中，数据单元样本包括多个数据单元；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东鸿数科技有限公司，未经广东鸿数科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111194834.7/2.html，转载请声明来源钻瓜专利网。