[发明专利]数据库敏感数据识别方法及装置在审

申请号：	202111162248.4	申请日：	2021-09-30
公开（公告）号：	CN113919352A	公开（公告）日：	2022-01-11
发明（设计）人：	肖增辉	申请（专利权）人：	杭州玖玖盾信息科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/253;G06F40/216;G06V10/74;G06V10/82;G06N3/04;G06N3/08
代理公司：	杭州华知专利事务所(普通合伙) 33235	代理人：	束晓前
地址：	310030 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据库敏感数据识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种数据库敏感数据识别方法及装置，涉及计算机技术领域。包括：确定新的敏感类别以及所述新的敏感类别对应的敏感数据字段；将所述敏感数据字段与所述预留敏感数据集进行合并得到新的训练数据集；基于所述新的训练数据集对所述预训练的命名实体识别模型进行训练得到新的命名实体识别模型，并更新所述预先确定的敏感类别特征表得到新的敏感类别特征表，以便于基于所述新的命名实体识别模型和所述新的敏感类别特征表进行数据库敏感数据识别。以此可以对已经训练好的命名实体识别模型的识别范围进行扩展，大幅度增加了模型应用的灵活性，提高了模型在不同敏感识别场景下的适配效率。

技术领域

本申请涉及计算机领域，具体而言，涉及一种数据库敏感数据识别方法及装置。

背景技术

在大数据时代，数据已成为核心资产，数据资产的安全保护、有效掌握和合理利用是企业的生命线。对于掌握大量数据的企业，无论是大量分散独立的应用数据库，还是存储海量数据的数据仓库，都需要一种简单、实用、有效的数据库扫描工具，探明敏感数据的分布，实现分级分类管理。

现有的敏感数据识别方案的显著特点是，基于已经掌握的敏感数据或者明确了什么数据敏感，再设计规则或模型去识别发现敏感数据，实用性不强。

发明内容

本申请实施例的目的在于提供一种数据库敏感数据识别方法及装置，用以缓解现有技术中存在的敏感数据识别实用性不强的技术问题。

第一方面，本申请提供一种数据库敏感数据识别方法，包括：

确定预训练的命名实体识别模型、预留敏感数据集以及预先确定的敏感类别特征表；

确定新的敏感类别以及新的敏感类别对应的敏感数据字段；

将敏感数据字段与预留敏感数据集进行合并得到新的训练数据集；

基于新的训练数据集对预训练的命名实体识别模型进行训练得到新的命名实体识别模型，并更新预先确定的敏感类别特征表得到新的敏感类别特征表，以便于基于新的命名实体识别模型和新的敏感类别特征表进行数据库敏感数据识别。

在可选的实施方式中，确定新的敏感类别以及新的敏感类别对应的敏感数据字段，包括：

为每个新的敏感类别确定一个唯一的标识；

为每个新的敏感类别指定至少一个数据库字段；

将每个数据库字段转换为敏感数据字段。

在可选的实施方式中，所预留敏感数据集中包含的各个敏感类别对应的敏感数据字段之间的数量差异小于40％；在将敏感数据字段与预留敏感数据集进行合并后，如果各个敏感类别对应的敏感数据字段之间的数量差异超过40％，则将预留敏感数据集中对应的敏感数据字段的数量较多的敏感类别所对应的数据进行部分删除操作。

在可选的实施方式中，命名实体识别模型的输出为敏感类别特征，敏感类别特征包括语法词性特征和敏感类别词性特征；其中，敏感类别词性特征包括时间、人名、地址、组织机构以及至少一个新的敏感类别；语法词性特征包括普通名词、方位名词、处所名词、作品名、其他专名、普通动词、动副词、名动词、形容词、副形词、名形词、副词、数量词、量词、代词、介词、连词、助词、其他虚词以及标点符号的词频；预先确定的敏感类别特征表，包括敏感类别特征与敏感类别标识的对应关系。

在可选的实施方式中，还包括：

确定待识别数据；

基于待识别数据的字段判断是否为时间类型；

如果待识别数据不是时间类型，则通过正则表达式进行匹配；

如果通过正则表达式匹配失败，则基于新的命名实体识别模型确定待识别数据的敏感类别特征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州玖玖盾信息科技有限公司，未经杭州玖玖盾信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111162248.4/2.html，转载请声明来源钻瓜专利网。