[发明专利]一种大规模文档相似性检测方法有效

申请号：	201810251626.8	申请日：	2018-03-26
公开（公告）号：	CN108595517B	公开（公告）日：	2021-03-09
发明（设计）人：	王诚;王宇成	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/33	分类号：	G06F16/33
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	姚姣阳
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种大规模文档相似性检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种大规模文档相似性检测方法，包括：S1、计算文档集中文档其他信息的相似度；S2、每篇文档内容对应一个签名S和一个f维向量V；S3、对文档内容进行分词处理；S4、特征词x的权重综合计算；S5、将特征词用哈希函数映射为签名h，遍历h的每一位，对V进行调整；S6、遍历V，对于签名S进行调整，最终生成签名S为文档内容对应的签名值；S7、将文档内容对应的签名值分为n块，使用哈希函数，映射到桶，并判断是否二次哈希；S8、同一个桶的文档作为候选对，计算相似度；S9、判断是否为相似文档。本发明检测的准确率高，执行效率高。可广泛用于互联网大规模数据挖掘中。

技术领域

本发明涉及一种检测方法，具体涉及一种大规模文档相似性检测方法，属于计算机算法领域。

背景技术

随着大数据时代的到来，数据化信息增长迅速，数据占用空间越来越大，如此海量的数据带来了巨大的存储问题。研究发现，存储的数据中冗余数据比例大于六成，并且冗余比例在未来会继续增加。冗余数据降低了用户检索和查询数据的效率，并且大量存储资源浪费于存储冗余数据，并且用户也不希望看到一堆内容相同或近似的检索结果。另一方面，数据挖掘开发者通过网络爬取的数据同样面临数据重复、冗余的问题。因此文档相似性检测和去重已经成为国内外重要的研究课题。

传统的哈希算法通过计算将输入数据映射成特定长度的哈希值输出，输入数据的差异越大，映射出的签名值差异也越大。但传统的哈希算法，如SHA-1、MD5，对1比特差距的输入数据都会产生完全不同的输出哈希值，因此无法检测出相似文档，需要对原有哈希算法进行改进，使得相似文档可以输出相似的哈希值。

为了解决上述问题，目前还出现一种Simhash算法，该算法由3位Google的工程师G.S.Manku、A.Jain和A.D.Sarma于2007年提出。究其本质而言，Simhash算法是一种经过改进的哈希算法，旨在解决相似数据的去重，但将其实际应用于文档相似性检测后，人们发现，这一算法仍然存在着准确率不够高，效率较低的问题。

综上所述，如何克服上述现有技术上的不足，提出一种准确率高、执行效率高的大规模文档相似性检测方法，就成为了本领域内的技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种大规模文档相似性检测方法。

本发明的目的，将通过以下技术方案得以实现：

一种大规模文档相似性检测方法，包括如下步骤：

S1、输入文档集，计算文档集中文档其他信息的相似度；

S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S，和一个初始化为0的f维向量V；

S3、通过NLPIR分词系统对文档内容进行分词处理，过滤掉语气词、助词，并去掉干扰符号后将文档内容转换为一组特征词；

S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算，将中文术语长度函数作为特征词x的主题相关性函数，中文术语长度函数为

其中，x表示特征词的长度，

特征词x的权重计算公式为

其中，tf_x,j×idf_x表示关键词x在文档j的TF-IDF值，len(x)为单词x的主题相关性函数；