[发明专利]一种基于多特征的跨语言剽窃检测方法有效
申请号: | 201711084337.5 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107862045B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 刘刚;胡昱临;李光曦 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/58;G06F40/253;G06F40/205 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 语言 剽窃 检测 方法 | ||
1.一种基于多特征的跨语言剽窃检测方法,其特征是:
(1)构建语料库;
(2)译文特征的构建
根据翻译文章普遍出现的欧化现象和翻译体问题进行了译文特征构建,通过特征选择的方式对特征进行清洗筛选出有效特征,过滤无效特征或者效果不明显的特征;
(3)特征选择
从诸多特征中选择出若干有效特征来进行分类器的训练,进而区分某一篇或某几篇中文文章是否存在跨语言剽窃问题;
(4)基于特征对应的剽窃检测
针对中文的特征,进行英文特征的准确对应,并根据译文特征和结构特征对应进行剽窃结果的过滤和生成,通过WordNet进行剽窃结果的最终确认;
基于特征对应的剽窃检测分为四个阶段,第一阶段,剽窃候选集预处理阶段,对中英文剽窃候选集进行段落划分与词性标注;第二阶段,一次过滤阶段,根据译文特征进行准确的特征对应,并实现段落距离计算算法;第三阶段,二次过滤阶段,根据结构特征进行剽窃结果再次过滤;第四阶段,最终结果确认阶段,运用WordNet对剽窃结果进行最终的确认,得到最终剽窃结果;选取了五种结构特征:句子的长度、句子中名词的长度、句子中动词的长度、句子中形容词的长度、句子中副词的长度,用来对剽窃候选集进行进一步筛选和过滤。
2.根据权利要求1所述的基于多特征的跨语言剽窃检测方法,其特征是所述构建语料库具体包括:
所述语料库分为中文训练集和中文测试集,将语料库分为两类,第一类语料库是存在跨语言剽窃的中文文章,这部分语料的获取通过将英文文档自动翻译得到;第二类语料库为原创性的中文文章,这部分语料的获取通过下载权威性中文论文;
第一类语料库的构建方法为:用爬虫爬取大量英文文章,并通过程序进行批量自动翻译得到剽窃中文文档,实现对批量的带有特定编号的PDF格式的文章进行处理,一篇编号为n的文章,形成m个纯文本文件,文件名为n.m,其中m为该文章的段落数,包括以下三步,
1)将PDF格式的文档转换为可文本标记的XML格式文档;
2)根据XML的标签,各类文本的信息转化,P/P之间的为一个段落,依次去读文档,读到P后便在该标签前面加入其特殊标记,并去掉其它标签以及标签之间的内容,文档中剩余的即为在每段前面加入特殊标记的文档;
3)用程序去读加入特殊标记的文档,每读到特殊标记便将其后面的内容写入一个纯文本文档,并将其特殊标记去掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711084337.5/1.html,转载请声明来源钻瓜专利网。