[发明专利]稿件内部查重方法、装置及电子设备有效
| 申请号: | 201911346256.7 | 申请日: | 2019-12-24 |
| 公开(公告)号: | CN110990539B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 王九硕;张丹;于琳琳;贾丹丹 | 申请(专利权)人: | 新方正控股发展有限责任公司;北京北大方正电子有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/205 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;臧建明 |
| 地址: | 519030 广东省珠海市横琴*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 稿件 内部 方法 装置 电子设备 | ||
本发明提供一种稿件内部查重方法、装置、存储介质及电子设备。该方法包括:对待检测文本进行分句,以获得文本句子集合,然后,根据预设句子相似度比较规则确定文本句子集合中每个基准句子所对应的相似句子集合,再根据相似句子集合确定基准文句在待检测文本全文中的目标文句。本发明的方法,通过将待检测文本以句子为单位进行拆分,以句子为单位,有效地保证了查重的速度,并通过对比的句子间相似度的方式,以确定基准文句在待检测文本全文中的目标文句,以实现准确、快速地对待检测文本内部的查重操作。
技术领域
本发明涉及无线通信技术,尤其涉及一种稿件内部查重方法、装置、存储介质及电子设备。
背景技术
目前图书出版领域中的出版稿件普遍存在着严重的重稿现象,虽然关于文本查重的方法也很普遍,但是对于稿件内的查重方面仍存在不足。
现有技术中,对于文稿查重的实现方法,在不同领域通常采用不同的实现方法,例如通过比较这两个指纹签名集的海明距离来判定文本的相似度,或者通过对比待查文章与文本库中重复分句在原文中的间隔度来判断是否重复。
但是,上述查重方式只是实现文稿与外部文件的查重,并不能实现文稿内部的查重,因此,如何准确、快速地对稿件内部进行查重操作是当前亟需解决的问题。
发明内容
本发明提供一种稿件内部查重方法、装置、存储介质及电子设备,用以解决如何准确、快速地对稿件内部进行查重操作的技术问题。
第一方面,本发明提供一种稿件内部查重方法,包括:
对待检测文本进行分句,以获得文本句子集合;
根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合;
根据所述相似句子集合确定基准文句在所述待检测文本全文中的目标文句,所述基准文句与所述目标文句的相似度大于预设阈值,所述基准文句为所述基准句子或由多个基准句子所构成的基准段落。
在一种可能的设计中,所述对待检测文本进行分句,包括:
获取所述待检测文本中的预设符号;
根据所述预设符号所处的位置对所述待检测文本进行分句,以获得所述文本句子集合,其中,所述文本句子集合包括多个有序排列的句子。
在一种可能的设计中,所述根据预设句子相似度比较规则确定所述文本句子集合中每个基准句子所对应的相似句子集合,包括:
确定第一基准句子与排列在所述基准句子之后的各个句子的相似度,其中,所述第一基准句子为所述文本句子集合中的任意句子;
根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合。
在一种可能的设计中,所述的稿件内部查重方法,还包括:
分配多个线程,其中,一个线程仅用于运行为一个基准句子确定对应相似句子集合的任务。
在一种可能的设计中,在所述根据所述第一基准句子与各个句子的相似度确定所述第一基准句子对应的第一相似句子集合之后,还包括:
若根据所述第一基准句子与第二基准句子的相似度确定所述第一基准句子与所述第二基准句子的文本相同,则合并所述第一相似句子集合与第二相似句子集合,以生成合并相似句子集合,所述第二相似句子集合为所述第二基准句子对应的相似句子集合;
确定所述第一基准句子与所述第二基准句子所对应的相似句子集合均为所述合并相似句子集合。
在一种可能的设计中,若多个相似句子集合中存在文本相同的连续句子,则从每个集合中提取最长公共子句,其中,所述最长公共子句包括首尾相连的多个句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新方正控股发展有限责任公司;北京北大方正电子有限公司,未经新方正控股发展有限责任公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346256.7/2.html,转载请声明来源钻瓜专利网。





