[发明专利]一种数据处理方法、装置、设备及存储介质在审
| 申请号: | 201910780845.X | 申请日: | 2019-08-22 | 
| 公开(公告)号: | CN112417144A | 公开(公告)日: | 2021-02-26 | 
| 发明(设计)人: | 孙洋;粟栗;胡汝祯;戴晶;叶艳;邵妍 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团有限公司 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 | 
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 | 
| 地址: | 100053 北*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置、设备及存储介质,其中,所述方法包括:根据样本数据对应的至少一个词向量,对语义空间中的词向量进行聚类处理,得到至少一个聚类簇;对每一聚类簇进行逐步分层次的词向量扩展,构建对应聚类簇的词汇紧密度规则;其中,每层词向量扩展均带有衰减因子,且越到外层的词向量扩展对应的衰减因子越强;采用所述词汇紧密度规则对待检测数据中的敏感信息进行检测。
技术领域
本申请实施例涉及信息安全技术领域,涉及但不限于一种数据处理方法、装置、设备及存储介质。
背景技术
在推进数据资源开放共享的同时,如何有效的保障用户敏感数据安全是需要解决的关键问题。
目前,识别敏感数据的主要方法包括:正则表达特征库、计算词汇权重获得敏感词、利用敏感词库等。其中正则表达特征库能够快速有效识别信息,但是由于正则库有限导致漏掉很多敏感数据,而且现实情况比较复杂难以全部应对;计算词汇权重获得敏感词,是对文档进行处理,计算出每个词汇的向量加权值,手工对基础数据语料库进行识别和分类,形成敏感词汇语料库;利用敏感词向量库,针对其进行分类,设置每类的基准词,对待检测数据转化为一个分类过程。
但是,目前的识别敏感数据的方法需要依赖规则库和敏感词进行标注统计,方法受限于规则库自身数量、质量和人为等因素,因此存在较大的误报率和漏报率。
发明内容
有鉴于此,本申请实施例提供一种数据处理方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据处理方法,所述方法包括:
根据样本数据对应的至少一个词向量,对语义空间中的词向量进行聚类处理,得到至少一个聚类簇;
对每一聚类簇进行逐步分层次的词向量扩展,构建对应聚类簇的词汇紧密度规则;其中,每层词向量扩展均带有衰减因子,且越到外层的词向量扩展对应的衰减因子越强;
采用所述词汇紧密度规则对待检测数据中的敏感信息进行检测。
第二方面,本申请实施例提供一种数据处理装置,所述装置包括:
聚类处理单元,用于根据样本数据对应的至少一个词向量,对语义空间中的词向量进行聚类处理,得到至少一个聚类簇;
词向量扩展单元,用于对每一聚类簇进行逐步分层次的词向量扩展,构建对应聚类簇的词汇紧密度规则;其中,每层词向量扩展均带有衰减因子,且越到外层的词向量扩展对应的衰减因子越强;
识别处理单元,用于采用所述词汇紧密度规则对待检测数据中的敏感信息进行检测。
第三方面,本申请实施例提供一种数据处理设备,所述设备至少包括:处理器和配置为存储可执行指令的存储介质,其中:所述处理器配置为执行存储的可执行指令;
所述可执行指令配置为执行上述的数据处理方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令配置为执行上述的数据处理方法。
本申请实施例提供的数据处理方法、装置、设备及存储介质,由于对聚类处理得到的每一聚类簇进行逐步分层次的词向量扩展,构建对应聚类簇的词汇紧密度规则,其中,每层词向量扩展均带有衰减因子,且越到外层的词向量扩展对应的衰减因子越强。如此,能够自适应的自动构造和挖掘更全面的词汇紧密度规则,从而能够在减少人为参与下,更好的突破目前规则库、正则库等的资源限制,极大的提高了利用词汇紧密度规则检测待检测数据中的敏感信息的准确率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780845.X/2.html,转载请声明来源钻瓜专利网。





