[发明专利]一种文档泄露检测方法及系统有效

专利信息
申请号: 201710600710.1 申请日: 2017-07-21
公开(公告)号: CN107391671B 公开(公告)日: 2019-11-26
发明(设计)人: 路松峰;廖泽翔;王同洋 申请(专利权)人: 华中科技大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 42201 华中科技大学专利中心 代理人: 廖盈春;李智<国际申请>=<国际公布>=
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 泄露 检测 方法 系统
【说明书】:

发明公开了一种文档泄露检测方法及系统,将企业内部文档构建倒排索引文件,通过相同词语检索可能存在相似的句子,然后对这些句子中的词语进行word2vec词向量的映射,通过词向量之间的相似度计算句子之间的相似度,从而判定文档是否属于泄露信息。本发明通过对企业内部的文本进行倒排索引,提高文本检索效率;通过对文档中的词语进行词向量映射,能够更加准确的计算两个句子之间相似度,从而更加准确的判定是否属于泄露文档,从而可以帮助管理员控制那些企业内部员工可以发送的文档,同时也可以帮助企业保护内部机密文档的安全,提高企业竞争力,避免因内部机密文档泄漏给企业带来的重大损失。

技术领域

本发明属于计算机技术领域,更具体地,涉及一种文档泄露检测方法及系统。

背景技术

文档防泄漏是通过专业的方式,预防企业的机密文档通过以违背安全规定的方式传输到企业外部的一种方法。同时,现阶段主流的技术都是以控制类、加密类以及过滤类技术来解决文档的防泄漏问题。通过给文档进行权限设定,或者给文档加密从而限制文档的访问,或者只是简单的通过文档传统的哈希方法对文档进行数字指纹的计算,通过一个数字指纹代表一个文档。这些方法都不能够检测从企业内部发送到外部的文档中是否包含一部分的泄露信息。

其中,基础泄露检测方法利用常规的检测技术对从企业内部发送到外部的数据进行内容的搜索和匹配,通常采用正则表达式、关键字匹配和文档的属性检测等方式。正则表达式和关键字匹配可以对不加修改的机密信息文档进行检测,但是对于使用同义词等修改手段进行修改的文档,检测效果并不好。文档属性检测主要是利用文档的格式、大小等文档基本信息对待检测文档进行检测,但是如果泄露的文档以不同于企业机密文档库中文档的格式存储,然后发送到企业外部,则这种方法也不能有效的检测出泄露文档。

基于特征的近似文档检测主要是考虑文档中的词语特征信息,将文档表示成由一系列特征向量表示的模型,通过计算这些特征向量之间的距离信息来表示文档之间的相似性。在文档信息检索领域最为经典的向量空间模型(Vector Space Model)就是这种方法。向量空间模型是一个把文档文件表示为多维特征向量的代数模型,多维向量中的每一维表示一个文档特征(通常是词语),这一维对应的值表示这个特征在文档中的权重,这个特征的权重可以仅仅用词频表示,也可以利用词频-逆文档频率(TF-IDF)模型计算。得到空间向量模型之后,一般通过余弦相似度来衡量两个向量空间的相似程度。但是在实际的文档中,词语之间通常包含有一定的语义联系,向量空间模型对于词语之间相互之间并无关联的要求很难实现。另外,当文档内容比较长时,向量空间模型的维度将变得十分巨大,此时向量空间模型的相似度将消耗非常多的时间资源。

基于字符串匹配的文档相似计算方法是将文档作为一个字符串,挑选这个字符串中的一些子字符串加入到一个集合中,并用这个集合来代表文档。对于不同的文档,计算字符串集合中相同字符串的个数占集合中所有字符串的个数的比例来表示这两个文档的相似度。这个度量方式一般是用Jaccard相似度来计算。例如,在公共开放策略服务(CommonOpen Policy Service,COPS)系统中,以句子为单位提取文档的指纹,计算每个句子的数字指纹。在Winnowing算法中,算法先将文档表示成n-gram字符串,计算这些字符串的映射值,通过窗口的滑动来选择部分映射作为文档的指纹。得到字符串集合或者指纹集合之后,通过比较两个文档中相同指纹的个数来衡量文档的相似度。然而基于字符串匹配的文档泄露检测方法只能准确的识别含有相同字符串的文档,对于包含同义词语的句子,这种方法并不能有效的检测出泄露的文档。

基于语义的文档相似度计算方法主要考虑的文档的语义特征,根据这些语义特征来衡量文档之间的相似性。但是汉语的语法结构比较复杂,加上词语的一词多义、同义词等情况,提取文档的语义特征比较复杂。现有的一些中文知识概念库中一般只是能够获取到词语的语义信息,例如董振东先生创立的《知网》是一个描述词语语义信息的中文知识概念库。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710600710.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top