[发明专利]一种文本去重方法、装置、电子设备和存储介质在审

申请号：	202111246050.4	申请日：	2021-10-26
公开（公告）号：	CN114282511A	公开（公告）日：	2022-04-05
发明（设计）人：	石志林	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F16/33
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱佳
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机技术领域，尤其涉及一种文本去重方法、装置、电子设备和存储介质，用以提高文本去重的准确率和效率。其中，方法包括：分别对文本集合中的各个待去重文本进行子文本串截取，获得各个待去重文本各自对应的子文本串集合；基于获得的各个子文本串集合各自包含的各个子文本串的特征信息，分别确定各个子文本串各自对应的目标权重；从各个子文本串中，筛选出目标权重不低于目标阈值的子文本串，作为目标子文本串；分别基于各个待去重文本与各个目标子文本串之间的包含关系，对各个待去重文本进行去重。由于本申请通过待去重文本与目标子文本串与之间的关联关系进行文本去重，可有效提高去重准确率和效率。

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本去重方法、装置、电子设备和存储介质。

背景技术

随着互联网时代，信息爆炸式地增长，互联网中充斥着海量的文本，并且包含有大量的重复文本内容；例如，一条新闻被各种媒体转载、修改、编辑，得到多条相似新闻。如果在互联网中存在大量的重复文本，那么一方面降低了整体的文本质量，另一方面会浪费大量的存储资源。因而，需要对文本进行去重。

文本去重技术是指将相似的、重复的信息识别出来。相关技术中的文本去重方法，主要是基于文本特征向量的相似度，或者是基于文本分词结果的海明距离等，将多个待去重文本进行两两比较，根据比较结果进行去重。

但是，在海量文本去重任务中，采用上述方法得到的去重准确率和效率一般。因而，如何提高文本去重的准确率和效率是亟待解决的。

发明内容

本申请实施例提供一种文本去重方法、装置、电子设备和存储介质，用以提高文本去重的准确率和效率。

本申请实施例提供的一种文本去重方法，包括：

分别对文本集合中的各个待去重文本进行子文本串截取，获得所述各个待去重文本各自对应的子文本串集合；

基于获得的各个子文本串集合各自包含的各个子文本串的特征信息，分别确定所述各个子文本串各自对应的目标权重；

从所述各个子文本串中，筛选出目标权重不低于目标阈值的子文本串，作为目标子文本串；