[发明专利]一种文档泄露检测方法及系统有效
申请号: | 201710600710.1 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107391671B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 路松峰;廖泽翔;王同洋 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 42201 华中科技大学专利中心 | 代理人: | 廖盈春;李智<国际申请>=<国际公布>= |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文档泄露检测方法及系统,将企业内部文档构建倒排索引文件,通过相同词语检索可能存在相似的句子,然后对这些句子中的词语进行word2vec词向量的映射,通过词向量之间的相似度计算句子之间的相似度,从而判定文档是否属于泄露信息。本发明通过对企业内部的文本进行倒排索引,提高文本检索效率;通过对文档中的词语进行词向量映射,能够更加准确的计算两个句子之间相似度,从而更加准确的判定是否属于泄露文档,从而可以帮助管理员控制那些企业内部员工可以发送的文档,同时也可以帮助企业保护内部机密文档的安全,提高企业竞争力,避免因内部机密文档泄漏给企业带来的重大损失。 | ||
搜索关键词: | 一种 文档 泄露 检测 方法 系统 | ||
【主权项】:
1.一种文档泄露检测方法,其特征在于,包括:/n对待检测文档中的每条待检语句,将所述待检语句进行预处理得到所述待检语句的词序列,从预设倒排索引数据库中采用倒排索引检索出与所述待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列;/n依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度,根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(wi,wj),其中,(wi,wj)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对,i∈(1,...,M),j∈(1,...,M),M表示配对词语的数量;/n将所述待检语句的词序列中配对成功的词语wi之间的距离值小于等于第二预设阈值的部分选为第一目标词序列,将所述相似词序列中配对成功的词语wj之间的距离值小于等于第二预设阈值的部分选为第二目标词序列,且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值;/n根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度,若所述句子相似度大于第三预设阈值,则判定所述待检语句为泄露语句。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710600710.1/,转载请声明来源钻瓜专利网。