[发明专利]基于预训练双语词向量的神经机器翻译方法在审
| 申请号: | 202110566113.8 | 申请日: | 2021-05-24 |
| 公开(公告)号: | CN113297841A | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 朱聪慧;赵铁军;刘哲宁;曹海龙;杨沐昀;徐冰 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 训练 双语 向量 神经 机器翻译 方法 | ||
本发明公开了一种基于预训练双语词向量的神经机器翻译方法,将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练;训练:取预训练得到的双语词向量矩阵初始化翻译模型;将源语言输入编码器,将源语言编码的向量表示及对应目标语言输入解码器输出预测序列,将其与相应的目标序列进行对比并计算损失值,输入优化器对翻译模型参数进行优化;预测:在某个时间步里,将源语言输入优化的编码器,编码器输出相应向量表示,将该向量表示以及上一时间步翻译的目标语言词输入解码器,解码器输出该时间步的目标词,将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。
技术领域
本发明涉及神经机器翻译技术领域,特别涉及一种基于深度学习和双语词向量的神经机器翻译方法。
背景技术
神经机器翻译(Neural machine translation,NMT)是一种引入人工神经网络进行翻译的机器翻译技术。相较于传统的统计机器翻译(Statistical MachineTranslation,SMT),神经机器翻译使用一种端到端的“编码器-解码器”架构。具体来说,这种架构又可被分为以下三类:
(1)基于循环神经网络的神经机器翻译模型。该种模型使用长短期记忆(LongShort-Term Memory,LSTM)或门控循环单元(Gated Recurrent Units,GRU)作为搭建“编码器-解码器”架构的单元。同时,其引入注意力机制,使得生成每个目标端词语时,解码器可以将“注意力”集中到源端的几个相关词语上,并从中获取有用的信息,从而获得更好的翻译表现。
(2)基于卷积神经网络的神经机器翻译模型。该种模型使用卷积模块的叠加来搭建“编码器-解码器”架构。同时,其在词向量中加入位置编码使模型获得更丰富的信息,增强模型的表示能力;此外,其使用残差连接来缓解模型训练时的梯度消失问题。
(3)Transformer神经机器翻译模型。该种模型创新性地使用了自注意力机制来对序列进行编码,其编码和解码器均由自注意力模块和前向神经网络构成。
近年来的研究表明,在英语等单语中提出的自然语言理解生成性训练是十分有效的。仅仅针对单语进行语言模型预训练可以解决大量基于单语的自然语言处理任务,然而这对于机器翻译这种典型的基于双语处理的任务来说,针对单语的语言模型预训练收效甚微。于是,针对预训练语言模型在这方面也有着许多有意思的改进,一种有效的改进模型代表为XLM,其将预训练这种方法扩展到多种语言,并展示了跨语言预处理针对基于双语处理的自然语言处理任务的有效性。
常见的神经机器翻译模型使用大量的标注平行语料作为监督信息源,源语言被切分为词或子词然后输入编码器中,(子)词经过编码器(子)词表的词向量矩阵被表示成为词向量,经过编码器的编码过程,最终得到源语言的最终向量表示。目标语言亦被切分为词或子词,(子)词经过解码器(子)词表的词向量矩阵被表示成为词向量,解码器将源语言被编码的向量和上一时间步解码的目标词的词向量作为解码器输入,经过解码器的解码过程,最终得到目标语言相应的词。这种方法存在以下缺点:
(1)整个神经机器翻译模型的训练需要大量的标注平行语料作为监督信息源。对于不常见的语种,例如“罗马尼亚语—英语”、“拉脱维亚语—英语”翻译等,由于这些语言之间的标注平行语料特别稀缺,这些语言的神经机器翻译效果往往不如具有大量标注平行语料语种的神经机器翻译。
(2)神经机器翻译模型的词向量矩阵往往是随机初始化,且随着训练过程的进行,词向量矩阵中的参数得到学习更新,这对于仅仅具有较少的标注平行语料的语种翻译来说,词向量矩阵的初始质量较差且训练更新过程中更容易过拟合。
因此,亟待一种能够提高低资源语料的机器翻译效果的方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110566113.8/2.html,转载请声明来源钻瓜专利网。





