[发明专利]数据库敏感数据识别方法及装置在审
申请号: | 202111162248.4 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113919352A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 肖增辉 | 申请(专利权)人: | 杭州玖玖盾信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/253;G06F40/216;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310030 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 敏感数据 识别 方法 装置 | ||
1.一种数据库敏感数据识别方法,其特征在于,包括:
确定预训练的命名实体识别模型、预留敏感数据集以及预先确定的敏感类别特征表;
确定新的敏感类别以及所述新的敏感类别对应的敏感数据字段;
将所述敏感数据字段与所述预留敏感数据集进行合并得到新的训练数据集;
基于所述新的训练数据集对所述预训练的命名实体识别模型进行训练得到新的命名实体识别模型,并更新所述预先确定的敏感类别特征表得到新的敏感类别特征表,以便于基于所述新的命名实体识别模型和所述新的敏感类别特征表进行数据库敏感数据识别。
2.根据权利要求1所述的方法,其特征在于,所述确定新的敏感类别以及所述新的敏感类别对应的敏感数据字段,包括:
为每个新的敏感类别确定一个唯一的标识;
为每个新的敏感类别指定至少一个数据库字段;
将每个数据库字段转换为敏感数据字段。
3.根据权利要求1所述的方法,其特征在于,所述预留敏感数据集中包含的各个敏感类别对应的敏感数据字段之间的数量差异小于40%;在将所述敏感数据字段与所述预留敏感数据集进行合并后,如果各个敏感类别对应的敏感数据字段之间的数量差异超过40%,则将预留敏感数据集中同一敏感类别对应的敏感数据字段的数量较多进行部分删除操作。
4.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型的输出为敏感类别特征,所述敏感类别特征包括语法词性特征和敏感类别词性特征;其中,所述敏感类别词性特征包括时间、人名、地址、组织机构以及至少一个新的敏感类别;所述语法词性特征包括普通名词、方位名词、处所名词、作品名、其他专名、普通动词、动副词、名动词、形容词、副形词、名形词、副词、数量词、量词、代词、介词、连词、助词、其他虚词以及标点符号的词频;所述预先确定的敏感类别特征表,包括敏感类别特征与敏感类别标识的对应关系。
5.根据权利要求4所述的方法,其特征在于,还包括:
确定待识别数据;
基于所述待识别数据的字段判断是否为时间类型;
如果所述待识别数据不是时间类型,则通过正则表达式进行匹配;
如果通过正则表达式匹配失败,则基于所述新的命名实体识别模型确定所述待识别数据的敏感类别特征;
基于所述待识别数据的敏感类别特征在所述新的敏感类别特征表进行相似度匹配,确定匹配的目标敏感类别。
6.根据权利要求5所述的方法,其特征在于,所述基于所述待识别数据的敏感类别特征在所述新的敏感类别特征表进行相似度匹配,确定匹配的目标敏感类别,包括:
将所述待识别数据的敏感类别特征和所述新的敏感类别特征表中的待匹配的敏感类别特征分别计算语法词性特征的相似度和敏感类别词性特征的相似度;
基于所述语法词性特征的相似度和所述敏感类别词性特征的相似度,确定所述待识别数据的敏感类别特征和所述待匹配的敏感类别特征的相似度;
将与所述待识别数据的敏感类别特征的相似度符合要求的待匹配的敏感类别特征所对应的敏感类别确定为目标敏感类别。
7.根据权利要求6所述的方法,其特征在于,在基于所述语法词性特征的相似度和所述敏感类别词性特征的相似度,确定所述待识别数据的敏感类别特征和所述待匹配的敏感类别特征的相似度时,所述语法词性特征的相似度的权重小于所述敏感类别词性特征的相似度的权重。
8.一种数据库敏感数据识别装置,其特征在于,包括:
第一确定模块,用于确定预训练的命名实体识别模型、预留敏感数据集以及预先确定的敏感类别特征表;
第二确定模块,用于确定新的敏感类别以及所述新的敏感类别对应的敏感数据字段;
合并模块,用于将所述敏感数据字段与所述预留敏感数据集进行合并得到新的训练数据集;
训练模块,用于基于所述新的训练数据集对所述预训练的命名实体识别模型进行训练得到新的命名实体识别模型,并更新所述预先确定的敏感类别特征表得到新的敏感类别特征表,以便于基于所述新的命名实体识别模型和所述新的敏感类别特征表进行数据库敏感数据识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玖玖盾信息科技有限公司,未经杭州玖玖盾信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111162248.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种导电桥阈值转换器件及其制备方法
- 下一篇:一种压裂用液压滑套