[发明专利]一种基于统计分词的文献密级甄别方法在审

申请号：	202010530243.1	申请日：	2020-06-11
公开（公告）号：	CN111767733A	公开（公告）日：	2020-10-13
发明（设计）人：	李强;余祥;朱峰;李腾飞;陈立哲;顾正海	申请（专利权）人：	安徽旅贲科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30
代理公司：	合肥天明专利事务所(普通合伙) 34115	代理人：	闫客
地址：	230000 安徽省合肥市高新区***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于统计分词文献密级甄别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于统计分词的文献密级甄别方法，属于信息安全技术领域，包括：对电子文件中的文字内容进行提取，得到对应的文档内容；将文档内容与预先构建的敏感信息库中的敏感信息进行语义相似度计算；根据语义相似度计算电子文件的内容涉密程度，得到电子文件的密级判定结果。本发明通过提取电子文件的内容，并与敏感信息库中的敏感信息进行比对，找到文档中的疑似涉密信息，对电子文件是否涉密进行判定，以辅助人工对电子文件进行密级甄别，便于对文献实施分类管理。

技术领域

本发明涉及信息安全技术领域，特别涉及一种文献密级甄别方法。

背景技术

随着办公信息化的快速发展，数据安全问题日益严重，用户一般直接在自己的计算机中进行办公，计算机不但可能受到外部网络的攻击，还会遭到内部人员无意或故意的泄密。相关人员通过对失泄密事故案件的统计分析，发现80％以上的失泄密事故案件都是和电子文档有关的。因此，对计算机中电子文件进行密级甄别，并实施分类管理就显得尤为重要。

发明内容

本发明的目的在于提供一种电子文档的密级甄别方法，提高文献密级甄别的准确率和效率。

为实现以上目的，本发明采用一种基于统计分词的文献密级甄别方法，包括如下步骤：

对电子文件中的文字内容进行提取，得到对应的文档内容；

将文档内容与预先构建的敏感信息库中的敏感信息进行语义相似度计算；

根据语义相似度计算电子文件的内容涉密程度，得到电子文件的密级判定结果。

进一步地，所述对电子文件中的文字内容进行提取，得到对应的文档内容，包括：

利用ANSI码和Unicode码读取所述电子文件的中英文内容；

设置四个缓冲区保存读取的ANSI码和Unicode码内容，其中Unicode和ANSI各用两个字符串缓冲区，两个字符串缓冲区分别存储所述电子文件的英文内容和中文内容；

向Unicode对应的缓冲区最后一个元素读入两个字节，将读到的两个字节的低位传递到ANSI对应的缓冲区，高位若为0则不处理，否则，将ANSI缓冲区左移后进行赋值；

将文档中指定长度内容分别读取到缓冲区，如果Unicode对应的缓冲区不为空，将其内容添加到结果文本。

所述第一缓冲区和第二缓冲区每次读取相应内容的两个字节，并对字节高位为0的内容进行读取和保存。