[发明专利]一种基于统计分词的文献密级甄别方法在审
申请号: | 202010530243.1 | 申请日: | 2020-06-11 |
公开(公告)号: | CN111767733A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 李强;余祥;朱峰;李腾飞;陈立哲;顾正海 | 申请(专利权)人: | 安徽旅贲科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 闫客 |
地址: | 230000 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 分词 文献 密级 甄别 方法 | ||
本发明公开了一种基于统计分词的文献密级甄别方法,属于信息安全技术领域,包括:对电子文件中的文字内容进行提取,得到对应的文档内容;将文档内容与预先构建的敏感信息库中的敏感信息进行语义相似度计算;根据语义相似度计算电子文件的内容涉密程度,得到电子文件的密级判定结果。本发明通过提取电子文件的内容,并与敏感信息库中的敏感信息进行比对,找到文档中的疑似涉密信息,对电子文件是否涉密进行判定,以辅助人工对电子文件进行密级甄别,便于对文献实施分类管理。
技术领域
本发明涉及信息安全技术领域,特别涉及一种文献密级甄别方法。
背景技术
随着办公信息化的快速发展,数据安全问题日益严重,用户一般直接在自己的计算机中进行办公,计算机不但可能受到外部网络的攻击,还会遭到内部人员无意或故意的泄密。相关人员通过对失泄密事故案件的统计分析,发现80%以上的失泄密事故案件都是和电子文档有关的。因此,对计算机中电子文件进行密级甄别,并实施分类管理就显得尤为重要。
发明内容
本发明的目的在于提供一种电子文档的密级甄别方法,提高文献密级甄别的准确率和效率。
为实现以上目的,本发明采用一种基于统计分词的文献密级甄别方法,包括如下步骤:
对电子文件中的文字内容进行提取,得到对应的文档内容;
将文档内容与预先构建的敏感信息库中的敏感信息进行语义相似度计算;
根据语义相似度计算电子文件的内容涉密程度,得到电子文件的密级判定结果。
进一步地,所述对电子文件中的文字内容进行提取,得到对应的文档内容,包括:
利用ANSI码和Unicode码读取所述电子文件的中英文内容;
设置四个缓冲区保存读取的ANSI码和Unicode码内容,其中Unicode和ANSI各用两个字符串缓冲区,两个字符串缓冲区分别存储所述电子文件的英文内容和中文内容;
向Unicode对应的缓冲区最后一个元素读入两个字节,将读到的两个字节的低位传递到ANSI对应的缓冲区,高位若为0则不处理,否则,将ANSI缓冲区左移后进行赋值;
将文档中指定长度内容分别读取到缓冲区,如果Unicode对应的缓冲区不为空,将其内容添加到结果文本。
所述第一缓冲区和第二缓冲区每次读取相应内容的两个字节,并对字节高位为0的内容进行读取和保存。
进一步地,在所述对电子文件中的文字内容进行提取,得到对应的文档内容之后,还包括:
采用多层隐马模型对所述文档内容进行预处理,得到所述文档内容对应的词法分析结果;
相应地,所述将文档内容与预先构建的敏感信息库中的敏感信息进行语义相似度计算,具体为:
将词法分析结果与预先构建的敏感信息库中的敏感信息进行语义相似度计算。
进一步地,所述采用多层隐马模型对所述文档内容进行预处理,得到所述文档内容对应的分词结果,包括:
对输入的原始字符串进行预处理,得到初步分词的二元切分词图;
利用多层隐马模型对原始字符串进行未登录词识别,以对初步分词的二元切分词图进行修正,得到修正后的二元切分词图;
利用基于词分类的隐马模型对修正后的二元切分词图进行处理,得到所述原始字符串对应的分词结果。
进一步地,所述对输入的原始字符串进行预处理,得到初步分词的二元切分词图,包括:
对所述原始字符串进行原子切分,得到所述原始字符串对应的原子分词序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽旅贲科技有限公司,未经安徽旅贲科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010530243.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本相似度计算方法及系统
- 下一篇:一种具有降噪功能的精密数控设备