[发明专利]重复度检测方法、装置和电子设备在审
| 申请号: | 202110166867.4 | 申请日: | 2021-02-04 |
| 公开(公告)号: | CN112861505A | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 于吉云;赵月显 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/289 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张芳;黄健 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 重复 检测 方法 装置 电子设备 | ||
本申请公开了一种重复度检测方法、装置和电子设备,涉及智能搜索技术、知识图谱等人工智能技术领域。具体实现方案为:在检测待检测文本的重复度时,获取待检测文本中的多个片段,以及多个片段中各片段对应的数字指纹;将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹;根据匹配结果,检测待检测文本的重复度。这样以待检测文本的片段为单位确定其对应的数字指纹,并基于各片段对应的数字指纹检测待检测文本的重复度,减少了匹配时的计算量,从而提高了小说重复度的检测效率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种重复度检测方法、装置和电子设备,具体可用于智能搜索技术、知识图谱等人工智能技术领域。
背景技术
近年来,随着网络上文本数量的不断增多,文本重复出现的可能性也越来越大。相同的文本常常分散在同一数据库中,重复文本的存在可能会增加索引的更新和检索异常的风险,从而导致无法解决的错误和维护相关的问题。因此,合并或者删除重复的文本变得尤为重要。尤其是网络文学中的小说,其创作数量呈指数增长。对小说进行重复度检测,是实现对小说有效管理的一种重要手段。
现有技术中,在进行小说重复度检测时,是分别计算待检测小说与小说数据库中每一个小说之间的小说相似度,并根据小说相似度计算结果确定待检测小说与数据库中的小说是否存在重复。
但是,采用小说相似度计算方法,计算量较大,这样会导致小说重复度的检测效率较低。
发明内容
本申请提供了一种重复度检测方法、装置和电子设备,在对文本重复度进行检测时,提高了文本重复度的检测效率。
根据本申请的第一方面,提供了一种重复度检测方法,该重复度检测方法可以包括:
获取待检测文本中的多个片段,以及所述多个片段中各片段对应的数字指纹。
将所述各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,所述数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。
根据匹配结果,检测所述待检测文本的重复度。
根据本申请的第二方面,提供了一种重复度检测装置,该重复度检测装置可以包括:
获取单元,用于获取待检测文本中的多个片段,以及所述多个片段中各片段对应的数字指纹。
处理单元,用于将所述各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,所述数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。
检测单元,用于根据匹配结果,检测所述待检测文本的重复度。
根据本申请的第三方面,提供了一种电子设备,该电子设备可以包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的重复度检测方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面所述的重复度检测方法。
根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面所述的重复度检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110166867.4/2.html,转载请声明来源钻瓜专利网。





