[发明专利]一种基于数据内容识别的文件标密方法及系统在审

专利信息
申请号: 202110658517.X 申请日: 2021-06-15
公开(公告)号: CN113378222A 公开(公告)日: 2021-09-10
发明(设计)人: 秦凯;喻波;王闻馨;王志海;安鹏 申请(专利权)人: 北京明朝万达科技股份有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06N20/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100142 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 内容 识别 文件 方法 系统
【权利要求书】:

1.一种基于数据内容识别的文件标密方法,其特征在于,包括:

S1:将外部文件做文件导入,得到导入文件;

S2:对导入文件的内容进行识别分析,判断文件中是否存在相关敏感信息,确认所述敏感信息出现的频率、位置;

S3:再根据所述敏感信息和所述敏感信息出现的频率、位置进行文件的分类分级;

S4:根据文件的分类分级的结果进行文件标密,得到标密信息;

S5:将所述导入文件的文件信息和所述标密信息保存至数据库中;

S6:返回标密结果并在人机交互层中展示标密结果。

2.根据权利要求1所述的基于数据内容识别的文件标密方法,其特征在于,所述对导入的文件的内容进行识别分析,判断文件中是否存在相关敏感信息的具体方法为:格式转换、内容提取、内容识别;

所述格式转换主要是对导入文件进行格式类型识别、解析和转换,得到格式转换文件;

所述内容提取为,将格式转换文件中提取文件内容,得到文件提取内容;

内容识别为,对文件提取内容进行预设信息提取,判断文件中是否存在相关敏感信息。

3.根据权利要求2所述的基于数据内容识别的文件标密方法,其特征在于,所述对文件提取内容进行预设信息提取的具体方法为:

利用关键字识别、正则表达式判断、数据标识符识别、文件指纹识别对文件提取内容进行预设信息提取。

4.根据权利要求3所述的基于数据内容识别的文件标密方法,其特征在于,所述确认所述敏感信息出现的频率的具体方法为:

利用机器学习技术对文件中存在的相关敏感信息进行聚类分析得到所述敏感信息出现的频率。

5.根据权利要求4所述的基于数据内容识别的文件标密方法,其特征在于,所述确认所述敏感信息出现的位置的具体方法为:

利用机器学习技术对文件中存在的相关敏感信息进行聚类分析得到所述敏感信息出现的位置。

6.根据权利要求5所述的基于数据内容识别的文件标密方法,其特征在于,进行文件的分类分级之前所述方法还包括:

利用机器学习技术对文件提取内容进行语义分析,避免单一的关键字或正则表达式的硬性判断。

7.根据权利要求6所述的基于数据内容识别的文件标密方法,其特征在于,所述文件的分类分级的具体方法为:

根据所述敏感信息出现的频率、在文件中的位置和具体语义的含义确认导入文件的涉密级别和业务分类。

8.一种基于数据内容识别的文件标密系统,其特征在于,所述系统搭载于操作系统上,具体包括:

人机交互模块、内容识别模块、标密模块、数据泄密、防护辅助决策模块和数据库模块;

所述人机交互模块是系统对外呈现部分,进行文件导入和标密信息查询和设置;

所述内容识别模块对导入的文件的内容进行识别分析,判断文件中是否存在相关敏感信息;

NLP辅助决策模块的功能包括:确认所述敏感信息出现的频率、位置,再根据所述敏感信息和所述敏感信息出现的频率、位置进行文件的分类分级;

标密模块完成具体的文件标密操作,得到标密信息;

数据库模块存储标密信息、文件信息以及内容识别依赖元素数据信息。

9.根据权利要求8所述的基于数据内容识别的文件标密系统,其特征在于,所述NLP辅助决策模块的功能还包括:利用机器学习技术对文件提取内容进行语义分析,避免单一的关键字或正则表达式的硬性判断。

10.根据权利要求8所述的基于数据内容识别的文件标密系统,其特征在于,所述标密信息查询的具体过程为:

(1)导入文件至标密系统中;

(2)后台系统提取导入文件中的标签信息,进行数据库查询,获取该文件相关文件信息、标密信息;

(3)返回查询结果;

(4)前台界面中展示该文件的标密信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110658517.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top