[发明专利]一种融合双语词典的蒙汉神经机器翻译方法在审
申请号: | 202111113235.8 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113850090A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 仁庆道尔吉;庞蕊;程坤;尹玉娟;张倩;张文静;苏依拉;吉亚图 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 李慧奇 |
地址: | 010051 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 双语 词典 神经 机器翻译 方法 | ||
1.一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地解决NMT在翻译低频实词时经常出错的问题,其特征在于,包括以下步骤:步骤一、对训练数据、其他外部并行数据资源(如手制字典)或两者结合,使用传统的单词对齐方法来构造这些词典概率;步骤二、使用注意力NMT模型中的注意力向量,将词典翻译概率转换为下一个单词的预测概率;步骤三、通过NMT概率的线性插值,或者将其作为NMT预测分布的偏差,将该概率纳入NMT;
所述源语言为蒙语。
2.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述步骤一中使用三种方式构造词典概率,分别为自动学习词典,手制词典与混合词典;
所述自动学习词典的词典概率直接使用IBM之类的翻译模型从平行语料库中通过无监督的方式进行学习,这些模型可以使用期望最大化(EM)算法估计两种语言标记之间的词对齐和词法转换概率pl(y|x),在期望步骤中,算法首先估计期望的计数c(y|x),在最大化步骤,词典概率由期望技术除以所有可能的总数算得:
NMT受训练速度与内存的约束,导致许多罕见词未被目标词表VY覆盖,据此,将词典所分配的剩余概率分配给未知的单词符号unk。
。
3.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述手制词典不包含翻译概率,为构造概率pl(y|x),为特定源词x定义存在于词典中的翻译集Kx,并假设这些词是均匀分布的;
未登录源词将其概率质分配给unk标签。
4.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述手制词典的词汇覆盖率更高,但其概率不如自动学习词典的精确,故构造一种混合方法,将手制词典补充到自动学习词典中,默认使用自动学习词典pl,a,对未覆盖词使用手制词典。
5.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,特在于,所述步骤二中的神经机器翻译的目标是将源单词序列翻译为目标单词序列这些单词分别属于源语言词表Vx和目标语言词表Vy,NMT通过计算给定源词X和前序目标单词下,第i个目标词yi的条件概率来执行这次翻译,上述过程通过将上下文编码为一个固定长度的向量ηi,并用下式计算条件概率来实现
其中Ws和bs分别为权重矩阵和偏置向量参数。
6.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述步骤二中的神经机器翻译选用注意力模型,注意力模型在计算yi时集中于源句中与之相关的特定的单词,其特征在于,包括以下步骤:步骤一、编码器将源句子X转换为一个矩阵R;步骤二、根据注意力向量ai计算上下文向量ci;步骤三、依据算得的条件概率预测单词yi,并通过最小化训练数据的负对数似然来训练本模型;
所述步骤一中的注意力模型在计算yi时集中于源句中与之相关的特定的单词,首先编码器将源句子X转换为一个矩阵R,矩阵的每一列(即一个连续向量)代表输入句子中的一个单词,此表示使用双向编码器生成
其中,embed()函数将单词映射为一个表示(通常使用向量进行表示),enc()是一个堆栈式LSTM神经网络,最后将和连接为一个双向表示rj,这些向量进一步连接为一个矩阵R,矩阵的第j列对应rj。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111113235.8/1.html,转载请声明来源钻瓜专利网。