[发明专利]一种快速文档相似度判定方法在审

申请号：	201711363095.3	申请日：	2017-12-18
公开（公告）号：	CN108052502A	公开（公告）日：	2018-05-18
发明（设计）人：	王祝	申请（专利权）人：	奕响（大连）科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	盘锦大工智讯专利代理事务所(特殊普通合伙) 21244	代理人：	徐淑东;崔雪
地址：	116000 辽宁省大连***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速文档相似判定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种快速文档相似度判定方法，选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

技术领域

本发明涉及文本处理领域，特别涉及一种快速文档相似度判定方法。

背景技术

随着我国知识是产权保护的意识越来越强，诞生了版权作者主动维权的意识，而人工判断侵权的工作量太大，在海量数据面前，需要计算机工具作为辅助，对数据进行筛选，然后进行人工判断。

申请人在2017年12月23日，申请了名为“一种文档相似度判定方法”的发明专利，是将整个文档的词语做hash，并根据词语出现的次数做加权，最后比较1，0数列，得到一个相似对比结果。整个文档的词语做hash，计算量比较大。

发明内容

为了克服上述现有技术的不足，本发明提供了一种快速文档相似度判定方法。

所述方法包括以下步骤：选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

有益效果：

具体实施方式

实施例：

第一步，选句：选取整篇文档10个最长的句子；

第二步，分词：将每个句子拆分成基础词汇；

第三步，词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；

第四步，合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；

第五步，降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；

第六步，对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于奕响（大连）科技有限公司，未经奕响（大连）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】