[发明专利]基于实体命名识别的数据快速脱敏系统及方法有效
申请号: | 202310501858.5 | 申请日: | 2023-05-06 |
公开(公告)号: | CN116205236B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 代幻成;杨尧;周文;杨波 | 申请(专利权)人: | 四川三合力通科技发展集团有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/23;G06F21/62 |
代理公司: | 成都拓荒者知识产权代理有限公司 51254 | 代理人: | 王坚敏 |
地址: | 610047 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实体 命名 识别 数据 快速 系统 方法 | ||
本发明涉及一种基于实体命名识别的数据快速脱敏系统及方法,涉及数据处理技术领域,该系统包括:聚类模块,用于对待处理文本数据进行聚类,得到多个目标聚类簇图;实体命名识别模块,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;脱敏模块,用于基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;目标聚类中心数据的识别标签与所述预设敏感信息标签相同。通过该方式可以减少识别所消耗的时间,进而可以加快整个脱敏过程的速度。
技术领域
本发明涉及数据处理技术领域,尤其是一种基于实体命名识别的数据快速脱敏系统及方法。
背景技术
数据脱敏是指将敏感数据中的关键信息替换成无效、无法识别的信息,以保护数据隐私和安全。数据脱敏的意义在于防止因数据泄露、数据丢失等原因导致的个人隐私暴露和潜在的安全风险,避免造成经济损失和信誉损失。在大数据时代,随着数据量的不断增加,数据脆弱性和数据挖掘技术的发展,数据泄露和隐私泄露的风险也越来越高,而数据脱敏技术可以降低这种风险。数据脱敏技术在金融、医疗等行业都得到广泛的应用,特别是在个人敏感信息保护领域,如社保卡、银行卡、医疗记录等。同时,数据脱敏的背景也与隐私保护法的制定有关,不同国家和地区的隐私保护法律都有数据脱敏方面的要求。作为企业和组织,保障用户信息安全和隐私是一项非常重要的社会责任和行业课题,而数据脱敏技术的应用可以很好地保护客户信息,保障用户的合法权益。因此,数据脱敏已经成为现代化信息安全体系中不可或缺的一环。现有数据脱敏技术由于其较高的计算复杂度导致处理数据时间花费长。
发明内容
为解决上述现有技术问题,本发明提供一种基于实体命名识别的数据快速脱敏系统及方法。
第一方面,本申请实施例提供一种基于实体命名识别的数据快速脱敏系统,包括:聚类模块,用于对待处理文本数据进行聚类,得到多个目标聚类簇图;实体命名识别模块,用于对每个所述目标聚类簇团的聚类中心数据进行实体命名识别,得到所述聚类中心数据的识别标签;以及将所述聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;脱敏模块,用于基于所述对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;所述目标聚类中心数据的识别标签与所述预设敏感信息标签相同。
可选地,所述聚类模块,还具体用于采用混合采样法及三角不等式搜索策略对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
可选地,所述聚类模块,还具体用于采用所述混合采样法对所述待处理文本数据进行采样,得到P个表征;基于预设聚类算法将所述P个表征分为Z个代表性聚类簇;采用所述三角不等式搜索策略从所述Z个代表性聚类簇搜查出所述待处理文本数据中的每个样本数据的K邻近表征;基于所述待处理文本数据中的每个样本数据的K邻近表征,得到所述多个目标聚类簇团。
可选地,所述聚类模块,还具体用于计算每个所述样本数据的K邻近表征的局部密度以及相对距离;基于每个所述样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个所述目标聚类簇团。
可选地,所述待处理文本数据为X={x1,x2,…,xN};xi为所述样本数据,i∈{1,2,…,N};所述聚类模块还具体用于确定出距离xi最近的代表性聚类簇;采用所述三角不等式搜索策略从距离xi最近的代表性聚类簇中搜查出所述xi的K邻近表征;其中,xi依次为x1,x2,…,xN。
可选地,所述聚类模块,还具体用于基于密度峰值聚类算法对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川三合力通科技发展集团有限公司,未经四川三合力通科技发展集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310501858.5/2.html,转载请声明来源钻瓜专利网。