[发明专利]一种中文文章查重方法和系统有效
申请号: | 201810797476.0 | 申请日: | 2018-07-19 |
公开(公告)号: | CN108984493B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王新宇 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/194 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;罗瑞芝 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种中文文章查重方法和系统。该方法包括将待查文章和文章库中的文章均拆分为句子;将句子翻译成英文;将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围;如果是,则待查文章为重复文章。该方法和系统能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。 | ||
搜索关键词: | 一种 中文 文章 方法 系统 | ||
【主权项】:
1.一种中文文章查重方法,其特征在于,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子;步骤S11:将所述句子翻译成英文;步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待查文章为重复文章。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810797476.0/,转载请声明来源钻瓜专利网。