[发明专利]一种句子相似度对比方法在审

专利信息
申请号: 201710860309.1 申请日: 2017-09-21
公开(公告)号: CN107632978A 公开(公告)日: 2018-01-26
发明(设计)人: 曾传德 申请(专利权)人: 曾传德
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 句子 相似 对比 方法
【说明书】:

技术领域

发明涉及计算机技术领域,具体涉及一种句子相似度对比方法。

背景技术

学术不端是指学术界的一些弄虚作假、行为不良或失范的风气,或指某些人在学术方面剽窃他人研究成果,败坏学术风气,阻碍学术进步,违背科学精神和道德,抛弃科学实验数据的真实诚信原则,给科学和教育事业带来严重的负面影响,极大损害学术形象的丑恶现象。

目前为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。

发明内容

本发明所要解决的技术问题是现有的文献查重技术,将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端,目的在于提供一种句子相似度对比方法,解决上述问题。

本发明通过下述技术方案实现:

一种句子相似度对比方法,包括以下步骤:S1:将原句子和对比句子向量化至同一个向量空间;S2:得出原句子向量和对比句子向量的夹角;S3:当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似。

现有技术中,为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。本发明应用时,先将原句子和对比句子向量化至同一个向量空间,再得出原句子向量和对比句子向量的夹角,由于将句子进行了向量化,所以即使将句子进行改写,其中的词汇也不会出现大幅的改变,在向量空间中的表现也会趋近于相同,当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似,这就使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。

进一步的,步骤S1包括以下子步骤:S11:将原句子和对比句子的所有词汇提取至一个向量空间,每一个词汇代表一个维度;S12:将词汇在原句子出现的次数赋值给该词汇在原句子向量的值;S13:将词汇在对比句子出现的次数赋值给该词汇在对比句子向量的值。

本发明应用时,由于汉语文字的特殊性,汉语文字是以字为主题,多字成词或者单字成词,所以非常适合于进行拆分,将句子拆分后,再提取至向量空间,提高了查重的效果。

进一步的,步骤S1还包括以下子步骤:S14:将向量空间中同义的词所在的维度进行合并。

进一步的,步骤S2包括以下步骤:通过原句子向量和对比句子向量的夹角的余弦判断夹角的值:式中X为原句子向量,Y为对比句子向量,θ为原句子向量和对比句子向量的夹角。

本发明应用时,在已知两个向量的前提下,通过对整体进行比较,即使向量的维度很高,也可以快速的进行运算,提高了查重效率。

进一步的,步骤S3中所述阈值采用10~20°。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明一种句子相似度对比方法,使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

本发明一种句子相似度对比方法,一种句子相似度对比方法,包括以下步骤:S1:将原句子和对比句子向量化至同一个向量空间;S2:得出原句子向量和对比句子向量的夹角;S3:当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似。步骤S1包括以下子步骤:S11:将原句子和对比句子的所有词汇提取至一个向量空间,每一个词汇代表一个维度;S12:将词汇在原句子出现的次数赋值给该词汇在原句子向量的值;S13:将词汇在对比句子出现的次数赋值给该词汇在对比句子向量的值。步骤S1还包括以下子步骤:S14:将向量空间中同义的词所在的维度进行合并。步骤S2包括以下步骤:通过原句子向量和对比句子向量的夹角的余弦判断夹角的值:式中X为原句子向量,Y为对比句子向量,θ为原句子向量和对比句子向量的夹角。进一步的,步骤S3中所述阈值采用10~20°。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾传德,未经曾传德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710860309.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top