[发明专利]一种句子相似度对比方法在审
申请号: | 201710860309.1 | 申请日: | 2017-09-21 |
公开(公告)号: | CN107632978A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 曾传德 | 申请(专利权)人: | 曾传德 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 相似 对比 方法 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种句子相似度对比方法。
背景技术
学术不端是指学术界的一些弄虚作假、行为不良或失范的风气,或指某些人在学术方面剽窃他人研究成果,败坏学术风气,阻碍学术进步,违背科学精神和道德,抛弃科学实验数据的真实诚信原则,给科学和教育事业带来严重的负面影响,极大损害学术形象的丑恶现象。
目前为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。
发明内容
本发明所要解决的技术问题是现有的文献查重技术,将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端,目的在于提供一种句子相似度对比方法,解决上述问题。
本发明通过下述技术方案实现:
一种句子相似度对比方法,包括以下步骤:S1:将原句子和对比句子向量化至同一个向量空间;S2:得出原句子向量和对比句子向量的夹角;S3:当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似。
现有技术中,为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。本发明应用时,先将原句子和对比句子向量化至同一个向量空间,再得出原句子向量和对比句子向量的夹角,由于将句子进行了向量化,所以即使将句子进行改写,其中的词汇也不会出现大幅的改变,在向量空间中的表现也会趋近于相同,当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似,这就使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。
进一步的,步骤S1包括以下子步骤:S11:将原句子和对比句子的所有词汇提取至一个向量空间,每一个词汇代表一个维度;S12:将词汇在原句子出现的次数赋值给该词汇在原句子向量的值;S13:将词汇在对比句子出现的次数赋值给该词汇在对比句子向量的值。
本发明应用时,由于汉语文字的特殊性,汉语文字是以字为主题,多字成词或者单字成词,所以非常适合于进行拆分,将句子拆分后,再提取至向量空间,提高了查重的效果。
进一步的,步骤S1还包括以下子步骤:S14:将向量空间中同义的词所在的维度进行合并。
进一步的,步骤S2包括以下步骤:通过原句子向量和对比句子向量的夹角的余弦判断夹角的值:式中X为原句子向量,Y为对比句子向量,θ为原句子向量和对比句子向量的夹角。
本发明应用时,在已知两个向量的前提下,通过对整体进行比较,即使向量的维度很高,也可以快速的进行运算,提高了查重效率。
进一步的,步骤S3中所述阈值采用10~20°。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种句子相似度对比方法,使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本发明一种句子相似度对比方法,一种句子相似度对比方法,包括以下步骤:S1:将原句子和对比句子向量化至同一个向量空间;S2:得出原句子向量和对比句子向量的夹角;S3:当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似。步骤S1包括以下子步骤:S11:将原句子和对比句子的所有词汇提取至一个向量空间,每一个词汇代表一个维度;S12:将词汇在原句子出现的次数赋值给该词汇在原句子向量的值;S13:将词汇在对比句子出现的次数赋值给该词汇在对比句子向量的值。步骤S1还包括以下子步骤:S14:将向量空间中同义的词所在的维度进行合并。步骤S2包括以下步骤:通过原句子向量和对比句子向量的夹角的余弦判断夹角的值:式中X为原句子向量,Y为对比句子向量,θ为原句子向量和对比句子向量的夹角。进一步的,步骤S3中所述阈值采用10~20°。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾传德,未经曾传德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710860309.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矿井下控制导线点装置
- 下一篇:测控面板结构