[发明专利]一种跨语言的电子文本剽窃检测系统及其检测方法有效
申请号: | 201410062327.1 | 申请日: | 2014-02-24 |
公开(公告)号: | CN103823862B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 鲍军鹏;张昭 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 电子 文本 剽窃 检测 系统 及其 方法 | ||
1.一种跨语言的电子文本剽窃检测方法,其特征在于,包括以下步骤:
步骤一,分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;
步骤二,根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;
步骤三,根据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;
步骤四,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列,生成剽窃证据列表;
步骤五,对剽窃证据列表进行合并、整理,生成检测结果;
步骤六,输出和显示检测结果。
2.根据权利要求1所述的跨语言的电子文本剽窃检测方法,其特征在于,所述步骤二具体包括以下步骤:
1)对待测段落集和参考段落集进行分词和停用词过滤,分别得到待测段落词语序列和参考段落词语序列;
2)利用跨语言本体查找每个词语序列中词语对应的概念,将词语的所有概念加入到候选概念数组中;
3)如果词语的候选概念数组中只有一种词性的概念,则在候选概念数组中选取至多N个概念存放到多重概念序列中;如果词语的候选概念数组中有M种词性的概念,则对每种词性分别在候选概念数组中选取至多N个概念,将这至多M×N个概念存放到多重概念序列中;
4)重复以上步骤2)~步骤3),直到词语序列中的所有词语处理完,形成待测多重概念序列和参考多重概念序列。
3.根据权利要求1所述的跨语言的电子文本剽窃检测方法,其特征在于,所述步骤四中,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列具体包括以下步骤:
1)创建候选剽窃证据列表和剽窃证据列表;
2)对共同概念最多的参考多重概念序列建立位置索引,所述位置索引按照哈希表结构进行组织,以使得通过位置索引查找待测多重概念序列中的概念在参考多重概念序列中出现的位置;
3)预设当前间隙变量G并置0;
4)取出待测多重概念序列的位置上的概念数组,用概念数组中所有概念在位置索引中查找,得到一个位置集合;
5)如果位置集合为空,将间隙变量G加1,转步骤8),否则将间隙变量G置0;
6)将待测多重概念序列的概念和位置集合中的位置组成位置对,对候选剽窃证据列表中的每一条证据,通过位置对更新证据;
7)当参考多重概念序列中的概念的位置对和候选剽窃证据列表中的所有证据距离大于预设位置阈值,则利用该位置对创建新证据,将新证据加入到候选剽窃证据列表中;
8)如果待测多重概念序列中的位置到达句子末尾或间隙变量G大于预设阈值,则执行候选剽窃证据列表检查操作,将满足密度要求的剽窃证据加入到剽窃证据列表中,然后将间隙变量G置0并清空候选剽窃证据列表;
9)重复上述步骤4)~步骤8),直到待测多重概念序列中的所有位置都处理完;
10)对剽窃证据列表中的证据进行合并,然后去掉长度小于预设位置阈值的证据。
4.根据权利要求3所述的跨语言的电子文本剽窃检测方法,其特征在于,所述满足密度要求的剽窃证据包括:
1)剽窃证据包括待测多重概念序列片段和参考多重概念序列片段;
2)设待测多重概念序列片段总位置数为Ls,检测出的位置数为Ns,Ns/Ls不小于密度阈值T;
3)设参考多重概念序列片段总位置数为Lr,检测出的位置数为Nr,Nr/Lr不小于密度阈值T。
5.根据权利要求1所述的跨语言的电子文本剽窃检测方法,其特征在于,所述生成检测结果的过程按以下步骤进行:
(1)根据待测多重概念序列的位置,对同一个待测文档的剽窃证据进行合并;
(2)将参考多重概念序列位置映射到文本字符流中的位置;
(3)计算待测文本和参考文本的相似度。
6.根据权利要求1所述的跨语言的电子文本剽窃检测方法,其特征在于,所述多重概念序列的每一个位置上有一个或多个概念,多重概念序列定义为:
MCS=<Carray1,Carray2,…,Carrayn>
其中,MCS是多重概念序列,Carrayn是第n个概念数组,在MCS的第n个位置上,n为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410062327.1/1.html,转载请声明来源钻瓜专利网。