[发明专利]融合EMD最小化双语词典的汉-越无监督神经机器翻译方法有效
| 申请号: | 202010096013.9 | 申请日: | 2020-02-17 |
| 公开(公告)号: | CN111753557B | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 余正涛;薛明亚;高盛祥;赖华;翟家欣;朱恩昌;陈玮 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/284;G06F40/242;G06F40/247;G06F16/951 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 代转嫚 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 emd 最小化 双语 词典 监督 神经 机器翻译 方法 | ||
本发明涉及融合EMD最小化双语词典的汉‑越无监督神经机器翻译方法,属于机器翻译技术领域。本发明包括步骤:语料收集;使用网络爬虫爬取汉语和越南语单语句子;首先分别训练汉语和越南语的单语词嵌入,通过最小化词嵌入分布的EMD训练得到汉越双语词典;再将该词典作为种子词典训练得到汉越双语词嵌入;最后再将双语词嵌入应用到共享编码器的无监督机器翻译模型中构建融合EMD最小化双语词典的汉‑越无监督神经机器翻译方法。本发明方法能够有效提升汉越无监督神经机器翻译的性能。
技术领域
本发明涉及融合EMD(Earth Mover’s Distance)最小化双语词典的汉-越无监督神经机器翻译方法,属于机器翻译技术领域。
背景技术
神经机器翻译是近几年提出的机器翻译方法,并且神经机器翻译质量已经在多个语言对上超过统计机器翻译成为主流的翻译方法。然而神经机器翻译需要大规模的平行语料才能有较好的效果,当训练数据不足时,会导致翻译质量不佳。汉语和越南语之间的平行语料稀少且不容易获取,所以汉-越机器翻译是典型的低资源语言机器翻译。但是汉语和越南语有大量的单语语料,本文探索只利用单语语料的汉-越无监督神经机器翻译,这不仅对推动两国交流合作有着非常重要的作用,对于低资源语言的机器翻译的研究也具有非常重要的理论和应用价值。
目前在无监督机器翻译的研究方法主要有基于对抗学习的无监督机器翻译和基于共享编码器的无监督机器翻译(共享空间)。Lample等人提出将两种不同的单语语料库句子映射到同一空间的思想,通过学习从这两种语言重建共享特征空间,仅利用单语语料实现无监督神经机器翻译。Artetxe等人对模型进行修改,先预训练无监督的双语词嵌入,采用共享编码器和分别解码的方式提出了仅仅使用单语语料的无监督神经机器翻译。Yang等人提出权重共享的无监督机器翻译模型相较于共享编码器模型提高了每种语言的自身的特点和内部特征以此提高翻译质量,Lample等人结合神经机器翻译和基于短语的统计机器翻译效果可以得到进一步提升无监督神经机器翻译的效果。Lample等人提出跨语言模型预训练用于初始化查找表提升预训练的跨语言词嵌入的质量,对无监督机器翻译模型的性能有显著提高。他们从相近语言的单语语料中利用同源词作为初始跨语言信息或者数字对齐的方法,然后扩展学习实现无监督神经机器翻译。汉越语言差异性较大,汉越之间没有可以利用的同源词,所以利用语言同源词的方法在汉越语言对上不可行,而Artetxe等人共享编码器无监督神经机器翻译是在无监督的双语词向量的基础上实现的,符合语言对差异性较大的特点。所以本发明选择在Artetxe等人工作上进行延伸,但是利用语言之间阿拉伯数字学习双语词嵌入的质量是有限的,所以本发明的想法是提升无监督双语词嵌入质量来提升汉越无监督神经机器翻译质量。
在只使用汉语和越南语单语语料的无监督机器翻译中,要直接实现机器翻译较难但是获取双语词典相对较容易,所以本发明考虑从汉越单语语料中先训练汉越双语词典,然后利用汉越词典作为种子词指导训练较高质量的双语词嵌入,来提高汉越无监督神经机器翻译质量。Zhang等人提出利用语言的词向量空间分布的相似性,使用EMD最小化的方法训练双语词典,整个过程只使用单语语料的无监督训练方式,且质量可以和有监督的方式相媲美,符合汉越语言的差异性较大特点。所以本文提出融合EMD最小化双语词典的汉越无监督神经机器翻译。
本文的方法是首先将汉语和越南语单语的词嵌入视为两个概率分布,通过最小化汉越词嵌入之间EMD距离训练获得汉越双语词典,再将汉越双语词典作为种子词典利用自学习的方法训练汉越双语词嵌入,在共享编码编码器模型上实现汉越无监督神经机器翻译。
发明内容
本发明提供了融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,以用于低资源语言的无监督翻译系统,提高了汉越神经机器无监督神经机器翻译的性能。
本发明的技术方案是:融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,具体步骤如下:
Step1、语料收集:使用网络爬虫爬取汉语和越南语单语语料;单语语料主要来自于中文和越南单语新闻网站;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010096013.9/2.html,转载请声明来源钻瓜专利网。





