[发明专利]文本查重处理方法、装置、计算机设备及计算机存储介质在审

申请号：	202010605505.6	申请日：	2020-06-29
公开（公告）号：	CN111753516A	公开（公告）日：	2020-10-09
发明（设计）人：	肖丹;陈翔	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F16/33;G06K9/62
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	张全文
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于人工智能技术领域，提供一种文本查重处理方法、装置、计算机设备及计算机存储介质，通过获取待查重文本对应的词语分数表，结合词语分数表中目标词语对应的词语分数值，按照词语级别对待查重文本和保存于历史文本数据库中的历史文本进行比对计算，获得待查重文本与历史文本之间的相似度。将相似度与相似度阈值进行比较，根据比较结果评定出待查重文本是否为重复文本。方法基于词语对应的词语分数值来比对计算文本与文本之间相似度，令含有专有信息的词语对文本相似度评定产生较大影响，而一般性的词语对文本相似度评定产生较小的影响，使得两个文本内容是否重复的判断与该两个文本中的词语强相关，提高文本查重的准确性和可靠性。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本查重处理方法、装置、计算机设备及计算机存储介质。

背景技术

如今，项目申报政府机构针对于企业或其他研究单位作出的系列优惠政策。一些企业为了能够多获得项目申报的奖励资金，存在同一个项目向不同的政府部门进行申报或者以不同企业的名义申报同一个项目的情况。而且，同一个项目在两次申报时往往会对文本文件的描述进行调整和区分，使得两个文本文件不完全相同，达到换词不换意的效果。对于这些企业的行为，无疑是增加了查重的难度。

目前现有的查重方法只是针对两篇文章的相似性，主要通过简单地比对文本中的关键词与数据库文本中的关键词是否一致来确认两个文本之间的相似性。对于一些申报项目或论文而言，可能会存在因主题、研究方向等的相同或相似使得两个文本之间具有较多相同的关键字，但是两个文本本质上却并不属于重复文本的情况，此时，若按此种方法重查准确率低、且可靠性差。

发明内容

有鉴于此，本申请实施例提供了一种文本查重处理方法、装置、终端及计算机存储介质，以解决现有技术中查重方法存在效率低、准确率低、可靠性差的问题。

本申请实施例的第一方面提供了一种文本查重处理方法，包括：

获取待查重文本对应的词语分数表，所述词语分数表中含有所述待查重文本的所有目标词语以及与目标词语对应的词语分数值，其中，所述目标词语表征所述待查重文本的内容信息，所述词语分数值表征目标词语对文本相似度评定的影响程度；

结合所述词语分数表，按照词语级别对所述待查重文本和保存于历史文本数据库中的历史文本进行比对计算，以获得所述待查重文本与所述历史文本之间的相似度；

将所述相似度与预设的相似度阈值进行比较，根据比较结果评定所述待查重文本是否为重复文本。

结合第一方面，在第一方面的第一种可能实现方式中，所述获取待查重文本对应的词语分数表的步骤之前，还包括：

对保存于历史文本数据库中的历史文本进行分词处理，以获得表征历史文本内容的第一词语，其中，所述第一词语表征历史文本的内容信息；

识别所述第一词语在所述历史文本数据库中的出现次数以及所述第一词语对应的字节长度；

结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值；

将所述第一词语对应的词语分数值与所述第一词语进行关联，以构建出与所述历史文本数据库对应的第一词语-词语分数值对应关系表。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述结合所述第一词语的出现次数和字节长度，按照预设的算法规则计算出所述第一词语对应的词语分数值的步骤中，计算所述词语分数值时所采用的公式为：