[发明专利]一种机器翻译模型的训练方法、系统、设备及存储介质在审

申请号：	202110132056.2	申请日：	2021-01-31
公开（公告）号：	CN112836527A	公开（公告）日：	2021-05-25
发明（设计）人：	丁颖;孙见青;梁家恩	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/42;G06F40/237;G06F17/18
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种机器翻译模型训练方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种机器翻译模型的训练方法、系统、设备及存储介质，该方法包括：为训练数据中包含的多种语言对的平行语料中的每个源语料添加目标语言标记；利用平行语料，建立各语言的共享词表；建立mask矩阵；使用端到端的Encoder‑Decoder框架读取平行语料，得到目标端向量表示；通过目标语言标记确定mask矩阵中关于平行语料的语言对应的mask子矩阵；将目标端向量表示、共享词表的向量表示和mask子矩阵输入softmax层，得到概率分布；利用Encoder‑Decoder框架，结合概率分布对训练数据进行训练，得到翻译模型。本发明可以尽可能地避免非目标语言词汇出现在候选译文中，提高零资源翻译译文的质量。

技术领域

本发明涉及机器翻译领域，具体涉及一种机器翻译模型的训练方法、系统、设备及存储介质。

背景技术

通用的多语种机器翻译系统是基于端到端Encoder-Decoder框架，利用多种语言对的平行语料进行模型训练，训练好的模型具有多语种翻译的能力，同时该模型具有对训练语料中不存在平行语料的语言对进行翻译的能力，即零资源翻译(zero-shottranslation)的能力。例如，当使用语言对L1,L0和L0,L2的平行语料训练模型时，系统可以实现由语言L1翻译成语言L2，但由于不存在双语平行语料可供训练使用，在零资源翻译过程中会忽略给定的目标语言信息，导致其译文中出现大量非目标语言词汇，影响翻译质量。

发明内容

本发明提供一种机器翻译模型的训练方法、系统、设备及存储介质，能够在多语种机器翻译模型的训练过程中，通过对共享词表进行MASK掩膜处理来尽可能地避免译文中出现非目标语言词汇的问题，从而提高零资源翻译的质量，解决零资源翻译译文质量低的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种机器翻译模型的训练方法，包括：

为训练数据中包含的多种语言对的平行语料中的每个源语料添加目标语言标记；

利用所述平行语料，建立各语言的共享词表；

建立mask矩阵，所述mask矩阵中的元素表示所述共享词表中的每个词是否在各语言对应的词表中存在，若存在则为1，不存在则为0；

使用端到端的Encoder-Decoder框架读取所述平行语料，得到目标端向量表示；

通过目标语言标记确定所述mask矩阵中关于平行语料的语言对应的mask子矩阵；

将所述目标端向量表示、共享词表的向量表示和mask子矩阵输入softmax层，得到概率分布；

利用所述Encoder-Decoder框架，结合所述概率分布对训练数据进行训练，得到翻译模型。

本发明的有益效果是：