首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种大规模文档相似性检测方法有效

申请号：	201810251626.8	申请日：	2018-03-26
公开（公告）号：	CN108595517B	公开（公告）日：	2021-03-09
发明（设计）人：	王诚;王宇成	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/33	分类号：	G06F16/33
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	姚姣阳
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种大规模文档相似性检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大规模文档相似性检测方法，其特征在于，包括如下步骤：

S1、输入文档集，计算文档集中文档其他信息的相似度，所述文档其他信息包括文档关键字、文档的标签以及文档的引用文献；

S2、文档集中每一篇文档内容对应一个初始化为0、长度为f的签名S，和一个初始化为0的f维向量V；

S3、通过NLPIR分词系统对文档内容进行分词处理，过滤掉语气词、助词，并去掉干扰符号后将文档内容转换为一组特征词；

S4、特征词x的权重综合使用TF-IDF技术和单词的主题相关性计算，将中文术语长度函数作为特征词x的主题相关性函数，中文术语长度函数为

其中，x表示特征词的长度，

特征词x的权重计算公式为

其中，tf_x,j×idf_x表示关键词x在文档j的TF-IDF值，len(x)为单词x的主题相关性函数；

S5、将所有特征词使用相同的哈希函数映射为长度为f的签名h，遍历h的每一位，若h的第i位为1，i介于1到f之间，V的第i位加上该特征词的权重，否则减去；

S6、遍历V，如果V的第i位大于0，签名S的第i位设为1，否则设为0，最终生成的签名S就是文档内容对应的Simhash签名值；

S7、将文档内容对应的Simhash签名值分为n块，对同块的签名值使用相同的哈希函数，映射到桶，检查每一个桶中的元素，判断元素数量有没超过(1+μ₁)×AVE_n，其中AVE_n为桶中元素的平均值，μ₁为权重，桶中元素数量超过的话进行二次哈希；

S8、同一个桶的文档作为候选对，先使用文档内容对应的Simhash签名值进行海明距离的计算，然后使用第一步文档其它信息的相似度综合计算文档间的相似度，文档间的相似度的计算公式为

其中Haming(A,B)表示A，B两篇文档内容的海明距离，minHash(A,B)表示A，B两篇文档其它信息的相似度，μ₂的取值为0.8～0.9；

S9、判断同一个桶中文档之间的相似度是否小于m值，

若同一个桶中文档之间的相似度小于m值，即输出为相似文档，

若同一个桶中文档之间的相似度不小于m值，即输出为非相似文档。

2.根据权利要求1所述的大规模文档相似性检测方法，其特征在于，S1中所述计算文档集中文档其他信息的相似度，包括如下步骤：

S11、提取文档中的其他信息，并将提取出的其他信息用集合的形式表示，将这一系列集合组成特征矩阵；

S12、使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度。

3.根据权利要求2所述的大规模文档相似性检测方法，其特征在于，S12中所述使用MinHash的方法计算特征矩阵对应列之间的jaccard相似度，包括如下步骤：

S121、对特征矩阵进行N次随机打乱生成签名矩阵；

S122、选用的N个随机哈希函数为h_i(x)＝(x+i)modN(i＝1，2，3ΛN)，其中，x表示特征词的长度，

通过签名矩阵对应列之间的jaccard相似度来估计特征矩阵对应列之间的jaccard相似度。

4.根据权利要求1所述的大规模文档相似性检测方法，其特征在于：S9中所述m值为0.25。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810251626.8/1.html，转载请声明来源钻瓜专利网。

上一篇：电能表误差稳定性分析方法、装置、存储介质及设备
下一篇：一种氧化铝生产蒸发过程在线数据协调方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top