[发明专利]一种文档泄露检测方法及系统有效
| 申请号: | 201710600710.1 | 申请日: | 2017-07-21 |
| 公开(公告)号: | CN107391671B | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 路松峰;廖泽翔;王同洋 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
| 代理公司: | 42201 华中科技大学专利中心 | 代理人: | 廖盈春;李智<国际申请>=<国际公布>= |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 泄露 检测 方法 系统 | ||
1.一种文档泄露检测方法,其特征在于,包括:
对待检测文档中的每条待检语句,将所述待检语句进行预处理得到所述待检语句的词序列,从预设倒排索引数据库中采用倒排索引检索出与所述待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列;
依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度,根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(wi,wj),其中,(wi,wj)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对,i∈(1,...,M),j∈(1,...,M),M表示配对词语的数量;
将所述待检语句的词序列中配对成功的词语wi之间的距离值小于等于第二预设阈值的部分选为第一目标词序列,将所述相似词序列中配对成功的词语wj之间的距离值小于等于第二预设阈值的部分选为第二目标词序列,且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值;
根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度,若所述句子相似度大于第三预设阈值,则判定所述待检语句为泄露语句。
2.根据权利要求1所述的方法,其特征在于,在所述从预设倒排索引数据库中检索出与所述待检语句存在相同词语个数大于第一预设阈值的相似语句之前,所述方法还包括:
对机密文档库中的文档进行预处理,并对预处理后的文档构建倒排索引文件,在所述倒排索引文件中保存有词语的标识值、词语的内容、词语长度、词性、指向倒排列表的指针信息、词语所属文档的标识值、词语在文档中出现的次数以及词语在文档中出现的位置信息;
存储所述倒排索引文件构成预设倒排索引数据库。
3.根据权利要求1或2所述的方法,其特征在于,所述依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度,包括:
由依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度,其中,wp表示所述待检语句的词序列中的第p个词语,wq表示所述相似词序列中的第q个词语,vpm表示wp对应的词向量中第m维的值,vqm表示wq对应的词向量中第m维的值,n表示词向量的维数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度,包括:
由计算所述第一目标词序列与所述第二目标词序列的句子相似度,其中,S1表示所述第一目标词序列,S2表示所述第二目标词序列,l表示所述第一目标词序列与所述第二目标词序列中的配对词语的数量,(w1k,w2k)表示语句S1与语句S2中第k个配对词语,sim(w1k,w2k)表示配对词语(w1k,w2k)之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710600710.1/1.html,转载请声明来源钻瓜专利网。





