[发明专利]一种文档查重方法及终端在审
| 申请号: | 202010938883.6 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN114238553A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 刘德建;叶俊材;郭玉湖;陈宏 | 申请(专利权)人: | 福建天泉教育科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/289 |
| 代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 张明 |
| 地址: | 350212 福建省福州市长乐*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 方法 终端 | ||
1.一种文档查重方法,其特征在于,包括步骤:
S1、对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为所述图片的特征向量;
S2、将每一个分词相对于所述文档的TF-IDF值作为每一个分词的权重值,并将每一张图片在所述文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;
S3、根据所述特征向量和对应的权重值生成所述文档的签名值;
S4、根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。
2.根据权利要求1所述的一种文档查重方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、对每一个所述特征向量进行哈希计算,得到每一个所述特征向量的哈希值;
S32、对每一个所述特征向量的哈希值中的每一位数值进行权重值相加,得到每一个所述特征向量的加权数字串,若所述特征向量的哈希值中某一位数值为1,则所述特征向量的加权数字串的这一位数值为正权重值,若所述特征向量的哈希值中某一位数值为0,则所述特征向量的加权数字串的这一位数值为负权重值;
S33、将所有所述特征向量的加权数字串进行叠加,得到加权序列串;
S34、对所述加权序列串进行降维处理,得到所述文档的签名值,若所述加权序列串中某一位数值大于0,则所述文档的签名值的这一位数值为1,若所述加权序列串中某一位数值小于或等于0,则所述文档的签名值的这一位数值为0。
3.根据权利要求1或2所述的一种文档查重方法,其特征在于,所述步骤S1具体包括以下步骤:
使用HanLP对文档进行分词处理,并去除预设资源类型中的常见停用词,得到最终的分词结果,将所述分词结果中的每一个分词作为一个特征向量;
使用灰度值算法计算出每一张图片的哈希值作为所述图片的特征向量。
4.根据权利要求1或2所述的一种文档查重方法,其特征在于,所述步骤S2还包括以下步骤:
在得到每一个分词的权重值之后,判断每一个分词的权重值是否大于预设文本最大权重值,若是,则将所述预设文本最大权重值作为所述分词的权重值;
在得到每一张图片的权重值之后,判断每一张图片的权重值是否大于预设图片最大权重值,若是,则将所述预设图片最大权重值作为所述图片的权重值。
5.根据权利要求2所述的一种文档查重方法,其特征在于,每接收一份文档,则对所述文档依次执行所述步骤S1至所述步骤S3,将所述步骤S3输出的所述文档的签名值进行存储;
所述步骤S4具体包括以下步骤:
将两篇文档的签名值的海明距离进行比较,若所述海明距离小于预设数值,则认为两篇文档是重复的,否则认为不重复。
6.一种文档查重终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为所述图片的特征向量;
S2、将每一个分词相对于所述文档的TF-IDF值作为每一个分词的权重值,并将每一张图片在所述文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;
S3、根据所述特征向量和对应的权重值生成所述文档的签名值;
S4、根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天泉教育科技有限公司,未经福建天泉教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010938883.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:大容量电缆网络状态的快速测试方法及测试系统
- 下一篇:一种防尘式的农业机械





