[发明专利]一种文档查重方法及终端在审
| 申请号: | 202010938883.6 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN114238553A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 刘德建;叶俊材;郭玉湖;陈宏 | 申请(专利权)人: | 福建天泉教育科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/289 |
| 代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 张明 |
| 地址: | 350212 福建省福州市长乐*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种文档查重方法及终端,对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为图片的特征向量;将每一个分词相对于文档的TF‑IDF值作为每一个分词的权重值,并将每一张图片在文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;从而生成文档的签名值;根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。本发明对文档中每一个特征向量的权重值,区分了文本和图片,在文档解析时,保留图片的特征值作为特征向量,在加权阶段,文本使用TF‑IDF算法计算权重值,图片使用出现次数*预设基础权重来计算权重值,即设置图片与文本词汇为不一样的权重,以提升了文档的查重精度。 | ||
| 搜索关键词: | 一种 文档 方法 终端 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天泉教育科技有限公司,未经福建天泉教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010938883.6/,转载请声明来源钻瓜专利网。
- 上一篇:大容量电缆网络状态的快速测试方法及测试系统
- 下一篇:一种防尘式的农业机械





