[发明专利]基于向量空间模型的文本挖掘系统在审

专利信息
申请号: 201710860895.X 申请日: 2017-09-21
公开(公告)号: CN107562730A 公开(公告)日: 2018-01-09
发明(设计)人: 曾传德 申请(专利权)人: 曾传德
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 向量 空间 模型 文本 挖掘 系统
【说明书】:

技术领域

发明涉及计算机技术领域,具体涉及基于向量空间模型的文本挖掘系统。

背景技术

学术不端是指学术界的一些弄虚作假、行为不良或失范的风气,或指某些人在学术方面剽窃他人研究成果,败坏学术风气,阻碍学术进步,违背科学精神和道德,抛弃科学实验数据的真实诚信原则,给科学和教育事业带来严重的负面影响,极大损害学术形象的丑恶现象。

目前为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。

发明内容

本发明所要解决的技术问题是现有的文献查重技术,将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端,目的在于提供基于向量空间模型的文本挖掘系统,解决上述问题。

本发明通过下述技术方案实现:

基于向量空间模型的文本挖掘系统,包括:用于采集原句子和对比句子的采集模块;用于将原句子和对比句子向量化至同一个向量空间的向量化模块;用于将原句子向量和对比句子向量进行对比,并得出原句子向量和对比句子向量夹角的对比模块;所述对比模块还用于当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似。

现有技术中,为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,只能针对相同的句子进行查重,而将该句子改写后,查重无法有效的发现,这就导致了现有的查重技术无法有效的预防学术不端。本发明应用时,采集模块采集原句子和对比句子,向量化模块将原句子和对比句子向量化至同一个向量空间,由于将句子进行了向量化,所以即使将句子进行改写,其中的词汇也不会出现大幅的改变,在向量空间中的表现也会趋近于相同,对比模块将原句子向量和对比句子向量进行对比,并得出原句子向量和对比句子向量夹角,对比模块还用于当原句子向量和对比句子向量的夹角小于等于阈值时,则认为两个句子相似;当原句子向量和对比句子向量的夹角大于阈值时,则认为两个句子不相似,这就使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。

进一步的,本发明还包括:用于将原句子和对比句子的所有词汇提取至一个向量空间的提取模块;每一个词汇代表一个维度;所述向量化模块还用于将词汇在原句子出现的次数赋值给该词汇在原句子向量的值,并将词汇在对比句子出现的次数赋值给该词汇在对比句子向量的值。

本发明应用时,由于汉语文字的特殊性,汉语文字是以字为主题,多字成词或者单字成词,所以非常适合于进行拆分,将句子拆分后,再提取至向量空间,提高了查重的效果。

再进一步的,所述向量化模块还用于将向量空间中同义的词所在的维度进行合并。

进一步的,所述对比模块通过下式判断夹角的值:式中X为原句子向量,Y为对比句子向量,θ为原句子向量和对比句子向量的夹角。

本发明应用时,在已知两个向量的前提下,通过对整体进行比较,即使向量的维度很高,也可以快速的进行运算,提高了查重效率。

进一步的,所述阈值采用10~20°。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明基于向量空间模型的文本挖掘系统,使得将句子改写后,也不会影响整体的查重,更有效的预防了学术不端。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾传德,未经曾传德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710860895.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top