[发明专利]一种文档查重方法及终端在审
| 申请号: | 202010938883.6 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN114238553A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 刘德建;叶俊材;郭玉湖;陈宏 | 申请(专利权)人: | 福建天泉教育科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/289 |
| 代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 张明 |
| 地址: | 350212 福建省福州市长乐*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 方法 终端 | ||
本发明公开了一种文档查重方法及终端,对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为图片的特征向量;将每一个分词相对于文档的TF‑IDF值作为每一个分词的权重值,并将每一张图片在文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;从而生成文档的签名值;根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。本发明对文档中每一个特征向量的权重值,区分了文本和图片,在文档解析时,保留图片的特征值作为特征向量,在加权阶段,文本使用TF‑IDF算法计算权重值,图片使用出现次数*预设基础权重来计算权重值,即设置图片与文本词汇为不一样的权重,以提升了文档的查重精度。
技术领域
本发明涉及文档查重技术领域,特别涉及一种文档查重方法及终端。
背景技术
Google的Simhash算法是一种缩减维度的算法,旨在将高维的向量用较低维度的签名来表示,是解决相似文本检测的高效哈希技术。通过Simhash算法生成文档签名值来代表该文档,通过比较文档之间的海明距离来判断签名值之间的相似程度,以此距离来确定文档是否相似。
但是,传统的Simhash算法一般存在两个问题:
(1)、对于课件类文档,包含大量的图片,并且与文本的权重存在区别,但传统的Simhash没有区分处理,影响查重精度。
(2)、对于套用模版的文档,可能出现大量重复的图片或者词汇,导致计算的指纹结果精度丢失。
发明内容
本发明所要解决的技术问题是:提供一种文档查重方法及终端,以提高文档的查重精度。
为了解决上述技术问题,本发明采用的技术方案为:
一种文档查重方法,包括步骤:
S1、对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为所述图片的特征向量;
S2、将每一个分词相对于所述文档的TF-IDF值作为每一个分词的权重值,并将每一张图片在所述文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;
S3、根据所述特征向量和对应的权重值生成所述文档的签名值;
S4、根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种文档查重终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为所述图片的特征向量;
S2、将每一个分词相对于所述文档的TF-IDF值作为每一个分词的权重值,并将每一张图片在所述文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;
S3、根据所述特征向量和对应的权重值生成所述文档的签名值;
S4、根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。
本发明的有益效果在于:一种文档查重方法及终端,对文档中每一个特征向量的权重值,区分了文本和图片,在文档解析时,保留图片的特征值作为特征向量,在加权阶段,文本使用TF-IDF算法计算权重值,图片使用出现次数*预设基础权重来计算权重值,即设置图片与文本词汇为不一样的权重,以提升了文档的查重精度。
附图说明
图1为本发明实施例的一种文档查重方法的主要流程示意图;
图2为本发明实施例的一种文档查重方法的具体流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天泉教育科技有限公司,未经福建天泉教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010938883.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大容量电缆网络状态的快速测试方法及测试系统
- 下一篇:一种防尘式的农业机械





