[发明专利]一种大规模文档相似性检测方法有效
申请号: | 201810251626.8 | 申请日: | 2018-03-26 |
公开(公告)号: | CN108595517B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 王诚;王宇成 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 文档 相似性 检测 方法 | ||
本发明提出了一种大规模文档相似性检测方法,包括:S1、计算文档集中文档其他信息的相似度;S2、每篇文档内容对应一个签名S和一个f维向量V;S3、对文档内容进行分词处理;S4、特征词x的权重综合计算;S5、将特征词用哈希函数映射为签名h,遍历h的每一位,对V进行调整;S6、遍历V,对于签名S进行调整,最终生成签名S为文档内容对应的签名值;S7、将文档内容对应的签名值分为n块,使用哈希函数,映射到桶,并判断是否二次哈希;S8、同一个桶的文档作为候选对,计算相似度;S9、判断是否为相似文档。本发明检测的准确率高,执行效率高。可广泛用于互联网大规模数据挖掘中。
技术领域
本发明涉及一种检测方法,具体涉及一种大规模文档相似性检测方法,属于计算机算法领域。
背景技术
随着大数据时代的到来,数据化信息增长迅速,数据占用空间越来越大,如此海量的数据带来了巨大的存储问题。研究发现,存储的数据中冗余数据比例大于六成,并且冗余比例在未来会继续增加。冗余数据降低了用户检索和查询数据的效率,并且大量存储资源浪费于存储冗余数据,并且用户也不希望看到一堆内容相同或近似的检索结果。另一方面,数据挖掘开发者通过网络爬取的数据同样面临数据重复、冗余的问题。因此文档相似性检测和去重已经成为国内外重要的研究课题。
传统的哈希算法通过计算将输入数据映射成特定长度的哈希值输出,输入数据的差异越大,映射出的签名值差异也越大。但传统的哈希算法,如SHA-1、MD5,对1比特差距的输入数据都会产生完全不同的输出哈希值,因此无法检测出相似文档,需要对原有哈希算法进行改进,使得相似文档可以输出相似的哈希值。
为了解决上述问题,目前还出现一种Simhash算法,该算法由3位Google的工程师G.S.Manku、A.Jain和A.D.Sarma于2007年提出。究其本质而言,Simhash算法是一种经过改进的哈希算法,旨在解决相似数据的去重,但将其实际应用于文档相似性检测后,人们发现,这一算法仍然存在着准确率不够高,效率较低的问题。
综上所述,如何克服上述现有技术上的不足,提出一种准确率高、执行效率高的大规模文档相似性检测方法,就成为了本领域内的技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种大规模文档相似性检测方法。
本发明的目的,将通过以下技术方案得以实现:
一种大规模文档相似性检测方法,包括如下步骤:
S1、输入文档集,计算文档集中文档其他信息的相似度;
S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S,和一个初始化为0的f维向量V;
S3、通过NLPIR分词系统对文档内容进行分词处理,过滤掉语气词、助词,并去掉干扰符号后将文档内容转换为一组特征词;
S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算,将中文术语长度函数作为特征词x的主题相关性函数,中文术语长度函数为
其中,x表示特征词的长度,
特征词x的权重计算公式为
其中,tfx,j×idfx表示关键词x在文档j的TF-IDF值,len(x)为单词x的主题相关性函数;
S5、将所有特征词使用相同的哈希函数映射为长度为f的签名h,遍历h的每一位,若h的第i位为1,i介于1到f之间,V的第i位加上该特征词的权重,否则减去;
S6、遍历V,如果V的第i位大于0,签名S的第i位设为1,否则设为0,最终生成的签名S就是文档内容对应的Simhash签名值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810251626.8/2.html,转载请声明来源钻瓜专利网。