[发明专利]基于签名压缩机制的近似重复文本检测方法及装置在审
| 申请号: | 201710045445.5 | 申请日: | 2017-01-22 |
| 公开(公告)号: | CN106844309A | 公开(公告)日: | 2017-06-13 |
| 发明(设计)人: | 张熙;姚运涛 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙)11413 | 代理人: | 项京,马敬 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 签名 压缩 机制 近似 重复 文本 检测 方法 装置 | ||
技术领域
本发明涉及近似重复文档检测技术领域,特别是涉及一种基于签名压缩机制的近似重复文本检测方法及装置。
背景技术
随着大数据时代大量信息的增长,近似重复文档检测方法应用越来越多,但也面临诸多挑战。通常,大数据要求大量化、快速化、多样化、价值化,相应的,要求近似重复文档检测具有可量测性、效率性、健壮性和有效性。尽管在近似重复文档检测领域已经有大量研究,但在满足上述所有要求时仍有难度。
现有技术中,常用的近似重复文档检测方法为:使用标准化压缩距离(Normalized Compression Distance,NCD)算法,计算出2篇待检测文档的NCD值,当NCD值小于预设阈值时,确定2篇待检测文档为近似重复文档。
具体地,先利用现有的压缩算法分别压缩两个待检测文档x和文档y,将文档压缩后的大小分别记作C(x)、C(y),并将文档x和文档y首尾相连后,压缩首尾相连后的文档x和文档y,将压缩后的大小记作C(xy);根据标准化压缩距离计算公式计算文档x和文档y的NCD值,若计算出来的NCD值小于预设阈值,则确定文档x和文档y为近似重复文档。
然而,由于压缩每一个文档和每一对相关文档是非常耗时的,需要O(n2)的时间复杂度,其中,n是文档数量,可以看出,当文档很多时,近似重复文档的检测速度非常慢。
发明内容
本发明实施例的目的在于提供一种基于签名压缩机制的近似重复文本检测方法及装置,以提高近似重复文档的检测速度。具体技术方案如下:
一种基于签名压缩机制的近似重复文本检测方法,包括:
确定当前检测文档x和y;
获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y));
将所述签名压缩长度C(sig(x))和C(sig(y))代入标准化压缩距离公式,计算出基于签名的标准化压缩距离值;
根据基于签名的标准化压缩距离值,得到所述当前检测文档x和y是否为近似重复文档的比较结果。
如上所述的方法,其中,所述确定当前检测文档x和y的步骤,包括:
获取多个待检测文档;
根据签名提取规则,分别提取所述每个待检测文档的签名;
压缩所述每个待检测文档的签名,得到所述每个待检测文档的签名压缩长度;
从所述每个待检测文档中,选择2个未比较的待检测文档确定为当前检测文档x和y;
所述获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y))的步骤,包括:从所述每个待检测文档的签名压缩长度中,获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y));
所述方法,还包括:
返回所述从所述每个待检测文档中,选择2个未比较的待检测文档确定为当前检测文档x和y的步骤,直至每个待检测文档都与其他待检测文档完成比较。
如上所述的方法,其中,所述根据签名提取规则,分别提取所述每个待检测文档的签名之前,所述方法还包括:
使用正则表达式,去除所述每个待检测文档中的超文本标记语言HTML框架元素。
如上所述的方法,其中,所述根据签名提取规则,分别提取所述每个待检测文档的签名,包括:
使用标点符号作为定位点,在每个所述待检测文档中提取位于每个所述定位点前后的字或单词作为每个所述待检测文档的签名。
如上所述的方法,其中,所述从所述每个待检测文档的签名压缩长度中,获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y))的步骤之后,还包括:
判断所述签名压缩长度C(sig(x))和C(sig(y))是否满足第一剪枝规则;
若满足,返回所述从所述每个待检测文档中,选择2个未比较的待检测文档确定为当前检测文档x和y的步骤,直至判断所述签名压缩长度C(sig(x))和C(sig(y))不满足所述第一剪枝规则;
若不满足,执行所述将所述签名压缩长度C(sig(x))和C(sig(y))代入标准化压缩距离公式,计算出基于签名的标准化压缩距离值的步骤;
其中,所述第一剪枝规则为:其中,τ为预设近似度阈值。
如上所述的方法,其中,在判断所述签名压缩长度C(sig(x))和C(sig(y))不满足所述第一剪枝规则之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710045445.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种偏心破袋机
- 下一篇:一种连杆式偏心破袋机





