[发明专利]基于宽度学习的移动业务数据脱敏规则生成方法在审
申请号: | 202110299218.1 | 申请日: | 2021-03-21 |
公开(公告)号: | CN112989414A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 陈玉玲;辛阳 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F21/60;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550025 贵州省*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 宽度 学习 移动 业务 数据 规则 生成 方法 | ||
1.一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,包括以下步骤:
步骤1:实现移动业务数据集中多模态敏感数据的数据预处理、自动识别及评级,并分析该敏感数据的组成属性;
步骤2:根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;
步骤3:基于宽度学习的移动业务数据脱敏规则生成方法;
步骤4:生成移动业务数据的脱敏规则。
2.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,所述步骤1包括:
(2-1)依据移动业务行业中数据使用中的敏感特性,对多模态敏感数据进行数据预处理、自动化识别和评级;
在大数据环境中,海量异构的数据将成为常态,因此,对于不同类别的数据应采取不同的数据预处理方法;
①对于文本数据而言:
首先根据自定义的停用词库,去除数据文本中的停用词,为了防止误删除某些特定的专业词汇或标点符号等信息,故可在现有的停用词库的基础上自定义专业的停用词库;
然后结合移动通信业务领域中的专业词汇字典,利用分词工具对数据文本信息进行切分,使其成为相互独立的词条,以建立该数据文本集的特征词集合;
最后根据移动通信业务领域中的敏感词库及人工辅助设计的敏感级别,根据语义相似度在特征词集合中匹配出现的涉密敏感词汇,构造第i个敏感信息的字典,即:
Li={敏感数据i:敏感级别i}(i=1,2,…)
②对于图片、语音、视频数据而言:首先根据该模式识别技术进行元数据和样本特征提取,然后在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息d额字典;
③对于结构化数据而言:直接在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息的字典;
(2-2)依据移动业务行业中数据使用中的敏感特性,分析敏感数据的组成属性信息;
本方法中考虑的数据属性信息包含数据的类型、表示方式以及敏感级别;
数据的表示方式可以通过相应的软件扫描来自动获取,本方法将数据表示方式分为:数字类、字母类、汉字类、符号类、图片类、语音类、视频类;
数据的类型可以通过相应的软件扫描来自动获取,本方法将数据类型分为:数值类型、时间类型、字符串(字符)类型;
数据的敏感级别可以根据步骤1自动获取,本方法将敏感级别分为:极弱(1)、弱(2)、一般(3)、强(4)、极强(5);
根据上述属性分类信息,可获得第i个敏感数据的数据属性信息字典,如下所示:
Pi={敏感数据i:表示方式i,数据类型i,敏感级别i}(i=1,2,…)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299218.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有码垛功能的交通运输用通油套管转运设备
- 下一篇:快插接头智能检测设备