[发明专利]一种跨语言的电子文本剽窃检测系统及其检测方法有效
申请号: | 201410062327.1 | 申请日: | 2014-02-24 |
公开(公告)号: | CN103823862B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 鲍军鹏;张昭 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 电子 文本 剽窃 检测 系统 及其 方法 | ||
技术领域
本发明属于智能信息处理和计算机技术领域,尤其涉及一种跨语言的电子文本剽窃检测系统及其检测方法。
背景技术
随着信息技术的快速发展,互联网上存在海量电子文本,而且其数量还在一直增加。保护电子文本知识产权已经成为国内外各界的共识。文本复制检测,又称文本剽窃检测,是判断文本是否复制其它一个或多个文本的技术,为保护电子文本知识产权提供技术支持。随着国际化的日益深入,文本的复制并不局限在单一的语言,跨语言翻译型的文本复制也十分普遍。因此,跨语言文本复制检测对于保护电子文本的知识产权有着重要的意义。
在跨语言文本复制检测中,待测文本和参考文本分别使用不同的语言。单语言文本复制检测主要基于字符串匹配和统计。然而,在跨语言文本复制检测中,不同语言的字符串存在很大差别,基于字符串匹配的方法将会无能为力。另外,不同语言在语法上也大不相同,例如中文和英文在翻译时词语的顺序可能会发生变化。所以,跨语言文本复制检测是一个很有难度的问题。
解决跨语言文本复制检测问题的一种途径是机器翻译方法。首先通过机器翻译将不同语言文本翻译成同一语言文本。然后利用单语言文本复制检测算法来进行检测。然而,这种方法的问题在于机器翻译质量会对检测结果产生关键性影响。目前机器翻译对大段文字的翻译准确度还很差。机器翻译质量和人工翻译质量相比有巨大差距。所以,机器翻译虽然将不同语言文本转换为同一语言文本,但是会出现一些错误翻译、同义词替换和顺序颠倒。这些误差都在很大程度上影响后续文本复制检测质量。
发明内容
针对上述缺陷或不足,本发明的目的在于提供了一种跨语言的电子文本剽窃检测方法,能够针对跨语言的文本复制进行检测。
为达到以上目的,本发明的技术方案为:
一种跨语言的电子文本剽窃检测方法,包括以下步骤:
步骤一,分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;
步骤二,根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;
步骤三,根据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;
步骤四,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列,生成剽窃证据列表;
步骤五,对剽窃证据列表进行合并、整理,生成检测结果;
步骤六,输出和显示检测结果。
所述步骤二具体包括以下步骤:
1)对待测段落集和参考段落集进行分词和停用词过滤,分别得到待测段落词语序列和参考段落词语序列;
2)利用跨语言本体查找每个词语序列中词语对应的概念,将词语的所有概念加入到候选概念数组中;
3)如果词语的候选概念数组中只有一种词性的概念,则在候选概念数组中选取至多N个概念存放到多重概念序列中;如果词语的候选概念数组中有M种词性的概念,则对每种词性分别在候选概念数组中选取至多N个概念,将这至多M×N个概念存放到多重概念序列中;
4)重复以上步骤2)~步骤3),直到词语序列中的所有词语处理完,形成待测多重概念序列和参考多重概念序列。
所述步骤四中,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列具体包括以下步骤:
1)创建候选剽窃证据列表和剽窃证据列表;
2)对共同概念最多的参考多重概念序列建立位置索引,所述位置索引按照哈希表结构进行组织,以使得通过位置索引查找待测多重概念序列中的概念在参考多重概念序列中出现的位置;
3)预设当前间隙变量G并置0;
4)取出待测多重概念序列的位置上的概念数组,用概念数组中所有概念在位置索引中查找,得到一个位置集合;
5)如果位置集合为空,将间隙变量G加1,转步骤8),否则将间隙变量G置0;
6)将待测多重概念序列的概念和位置集合中的位置组成位置对,对候选剽窃证据列表中的每一条证据,通过位置对更新证据;
7)当参考多重概念序列中的概念的位置对和候选剽窃证据列表中的所有证据距离大于预设位置阈值,则利用该位置对创建新证据,将新证据加入到候选剽窃证据列表中;
8)如果待测多重概念序列中的位置到达句子末尾或间隙变量G大于预设阈值,则执行候选剽窃证据列表检查操作,将满足密度要求的剽窃证据加入到剽窃证据列表中,然后将间隙变量G置0并清空候选剽窃证据列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410062327.1/2.html,转载请声明来源钻瓜专利网。