[发明专利]一种基于多特征的跨语言剽窃检测方法有效
申请号: | 201711084337.5 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107862045B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 刘刚;胡昱临;李光曦 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/58;G06F40/253;G06F40/205 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 语言 剽窃 检测 方法 | ||
本发明提供的是一种基于多特征的跨语言剽窃检测方法。(1)构建语料库;(2)译文特征的构建,根据翻译文章普遍出现的欧化现象和翻译体问题进行了译文特征构建,通过特征选择的方式对特征进行清洗筛选出有效特征,过滤无效特征或者效果不明显的特征;(3)特征选择,从诸多特征中选择出若干有效特征来进行分类器的训练,进而区分某一篇或某几篇中文文章是否存在跨语言剽窃问题;(4)基于特征对应的剽窃检测,针对中文的特征,进行英文特征的准确对应,并根据译文特征和结构特征对应进行剽窃结果的过滤和生成,通过WordNet进行剽窃结果的最终确认。本发明能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题。
技术领域
本发明涉及的是一种检测文章是否有剽窃行为的方法。
背景技术
(1)英汉翻译中的欧化现象和翻译体问题发现
英汉语言的相互变换给这两种语言都带来了潜移默化的变化,包括了口音、词汇、语法、修辞等因素。虽然两种语言的影响是相互的,但是相比较而言,英语对汉语的影响远远大于汉语对英语的影响。当单语言剽窃检测日渐不能满足其遇到的学术不端问题时,这时跨语言剽窃检测出现了。然而,单语剽窃检测技术在跨语言剽窃检测中并不适用。当前跨语言剽窃检测最主流的方法有跨语言信息检索(CLIR)和跨语言相似性检测(CLSD)两种方法。
两种语言之间可以通过词典、语料库或翻译的方式进行对应。在进行研究时,需要解决如词的歧义性和多义性问题、输出结果的排序方式问题、查询词的切分问题、对多语言资源的依赖等各种问题。近年来CLIR正逐渐流行,2009年的跨语言评估论坛上,10种方法中有7种都直接使用了机器翻译将两种语言转换成了一种语言。
CLSD是指跨语言相似性检测技术,它和CLIR有很多相似的地方。在CLSD中,比较的是不同语言的文章之间的相似性。当前常用的CLSD算法有很多,主要包括基于语言语法的、基于机器翻译的、基于专业词典的、基于平行或者可比较语料库的和基于语义网络的算法。
在国外,存在很多关于跨语言剽窃的相关文章,例如英语-阿拉伯语,英语-德语,英语-捷克语等。但由于中文特殊性,国外文章并没有涉及英语-汉语的剽窃检测,但其它双语文章对英语-汉语的检测有很大的借鉴意义。
(2)利用了特征工程。特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中有极其重要的地位。在实际应用当中,特征工程是机器学习成功的关键。
在限定的数据下,用过多的特征来进行分类算法的训练复杂度太大而且容易过拟合。所以在构建好特征之后,首先需要进行特征选择。其目的是从诸多特征中选择出一个最具统计意义的特征子集,一方面能够达到筛选无效特征的目的,另一方面又对特征空间进行了降维,降低了模型复杂度。
发明内容
本发明的目的在于提供一种能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题的基于多特征的跨语言剽窃检测方法。
本发明的目的是这样实现的:
(1)首先构建语料库
所述语料库分为中文训练集和中文测试集,将语料库分为两类,第一类语料库是存在跨语言剽窃的中文文章,这部分语料的获取通过将英文文档自动翻译得到;第二类语料库为原创性的中文文章,这部分语料的获取通过下载权威性中文论文;
第二类语料库的构建方法为:用爬虫爬取大量英文文章,并通过程序进行批量自动翻译得到剽窃中文文档,实现对批量的带有特定编号的PDF格式的文章进行处理,一篇编号为n的文章,形成m个纯文本文件,文件名为n.m,其中m为该文章的段落数,主要包括以下三步,
1)将PDF格式的文档转换为可文本标记的XML格式文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711084337.5/2.html,转载请声明来源钻瓜专利网。