[发明专利]一种基于数据内容识别的文件标密方法及系统在审
申请号: | 202110658517.X | 申请日: | 2021-06-15 |
公开(公告)号: | CN113378222A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 秦凯;喻波;王闻馨;王志海;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 内容 识别 文件 方法 系统 | ||
1.一种基于数据内容识别的文件标密方法,其特征在于,包括:
S1:将外部文件做文件导入,得到导入文件;
S2:对导入文件的内容进行识别分析,判断文件中是否存在相关敏感信息,确认所述敏感信息出现的频率、位置;
S3:再根据所述敏感信息和所述敏感信息出现的频率、位置进行文件的分类分级;
S4:根据文件的分类分级的结果进行文件标密,得到标密信息;
S5:将所述导入文件的文件信息和所述标密信息保存至数据库中;
S6:返回标密结果并在人机交互层中展示标密结果。
2.根据权利要求1所述的基于数据内容识别的文件标密方法,其特征在于,所述对导入的文件的内容进行识别分析,判断文件中是否存在相关敏感信息的具体方法为:格式转换、内容提取、内容识别;
所述格式转换主要是对导入文件进行格式类型识别、解析和转换,得到格式转换文件;
所述内容提取为,将格式转换文件中提取文件内容,得到文件提取内容;
内容识别为,对文件提取内容进行预设信息提取,判断文件中是否存在相关敏感信息。
3.根据权利要求2所述的基于数据内容识别的文件标密方法,其特征在于,所述对文件提取内容进行预设信息提取的具体方法为:
利用关键字识别、正则表达式判断、数据标识符识别、文件指纹识别对文件提取内容进行预设信息提取。
4.根据权利要求3所述的基于数据内容识别的文件标密方法,其特征在于,所述确认所述敏感信息出现的频率的具体方法为:
利用机器学习技术对文件中存在的相关敏感信息进行聚类分析得到所述敏感信息出现的频率。
5.根据权利要求4所述的基于数据内容识别的文件标密方法,其特征在于,所述确认所述敏感信息出现的位置的具体方法为:
利用机器学习技术对文件中存在的相关敏感信息进行聚类分析得到所述敏感信息出现的位置。
6.根据权利要求5所述的基于数据内容识别的文件标密方法,其特征在于,进行文件的分类分级之前所述方法还包括:
利用机器学习技术对文件提取内容进行语义分析,避免单一的关键字或正则表达式的硬性判断。
7.根据权利要求6所述的基于数据内容识别的文件标密方法,其特征在于,所述文件的分类分级的具体方法为:
根据所述敏感信息出现的频率、在文件中的位置和具体语义的含义确认导入文件的涉密级别和业务分类。
8.一种基于数据内容识别的文件标密系统,其特征在于,所述系统搭载于操作系统上,具体包括:
人机交互模块、内容识别模块、标密模块、数据泄密、防护辅助决策模块和数据库模块;
所述人机交互模块是系统对外呈现部分,进行文件导入和标密信息查询和设置;
所述内容识别模块对导入的文件的内容进行识别分析,判断文件中是否存在相关敏感信息;
NLP辅助决策模块的功能包括:确认所述敏感信息出现的频率、位置,再根据所述敏感信息和所述敏感信息出现的频率、位置进行文件的分类分级;
标密模块完成具体的文件标密操作,得到标密信息;
数据库模块存储标密信息、文件信息以及内容识别依赖元素数据信息。
9.根据权利要求8所述的基于数据内容识别的文件标密系统,其特征在于,所述NLP辅助决策模块的功能还包括:利用机器学习技术对文件提取内容进行语义分析,避免单一的关键字或正则表达式的硬性判断。
10.根据权利要求8所述的基于数据内容识别的文件标密系统,其特征在于,所述标密信息查询的具体过程为:
(1)导入文件至标密系统中;
(2)后台系统提取导入文件中的标签信息,进行数据库查询,获取该文件相关文件信息、标密信息;
(3)返回查询结果;
(4)前台界面中展示该文件的标密信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110658517.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多角度加工的斜五度砂光机
- 下一篇:一种化工实验的原料加工用取样装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法