[发明专利]一种融合双语词典的蒙汉神经机器翻译方法在审

申请号：	202111113235.8	申请日：	2021-09-23
公开（公告）号：	CN113850090A	公开（公告）日：	2021-12-28
发明（设计）人：	仁庆道尔吉;庞蕊;程坤;尹玉娟;张倩;张文静;苏依拉;吉亚图	申请（专利权）人：	内蒙古工业大学
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/242;G06N3/04;G06N3/08
代理公司：	武汉菲翔知识产权代理有限公司 42284	代理人：	李慧奇
地址：	010051 内蒙古***	国省代码：	内蒙古;15
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合双语词典神经机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合双语词典的蒙汉神经机器翻译方法，通过在NMT系统中增加离散的翻译词典，有效地解决NMT在翻译低频实词时经常出错的问题，其特征在于，包括以下步骤：步骤一、对训练数据、其他外部并行数据资源(如手制字典)或两者结合，使用传统的单词对齐方法来构造这些词典概率；步骤二、使用注意力NMT模型中的注意力向量，将词典翻译概率转换为下一个单词的预测概率；步骤三、通过NMT概率的线性插值，或者将其作为NMT预测分布的偏差，将该概率纳入NMT；

所述源语言为蒙语。

2.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法，其特征在于，所述步骤一中使用三种方式构造词典概率，分别为自动学习词典，手制词典与混合词典；

所述自动学习词典的词典概率直接使用IBM之类的翻译模型从平行语料库中通过无监督的方式进行学习，这些模型可以使用期望最大化(EM)算法估计两种语言标记之间的词对齐和词法转换概率p_l(y|x)，在期望步骤中，算法首先估计期望的计数c(y|x)，在最大化步骤，词典概率由期望技术除以所有可能的总数算得：

NMT受训练速度与内存的约束，导致许多罕见词未被目标词表V_Y覆盖，据此，将词典所分配的剩余概率分配给未知的单词符号unk。

。

3.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法，其特征在于，所述手制词典不包含翻译概率，为构造概率p_l(y|x)，为特定源词x定义存在于词典中的翻译集K_x，并假设这些词是均匀分布的；

未登录源词将其概率质分配给unk标签。

4.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法，其特征在于，所述手制词典的词汇覆盖率更高，但其概率不如自动学习词典的精确，故构造一种混合方法，将手制词典补充到自动学习词典中，默认使用自动学习词典p_l,a，对未覆盖词使用手制词典。

5.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法，特在于，所述步骤二中的神经机器翻译的目标是将源单词序列翻译为目标单词序列这些单词分别属于源语言词表V_x和目标语言词表V_y，NMT通过计算给定源词X和前序目标单词下，第i个目标词y_i的条件概率来执行这次翻译，上述过程通过将上下文编码为一个固定长度的向量η_i，并用下式计算条件概率来实现

其中W_s和b_s分别为权重矩阵和偏置向量参数。

6.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法，其特征在于，所述步骤二中的神经机器翻译选用注意力模型，注意力模型在计算y_i时集中于源句中与之相关的特定的单词，其特征在于，包括以下步骤：步骤一、编码器将源句子X转换为一个矩阵R；步骤二、根据注意力向量a_i计算上下文向量c_i；步骤三、依据算得的条件概率预测单词y_i，并通过最小化训练数据的负对数似然来训练本模型；

所述步骤一中的注意力模型在计算y_i时集中于源句中与之相关的特定的单词，首先编码器将源句子X转换为一个矩阵R，矩阵的每一列(即一个连续向量)代表输入句子中的一个单词，此表示使用双向编码器生成

其中，embed()函数将单词映射为一个表示(通常使用向量进行表示)，enc()是一个堆栈式LSTM神经网络，最后将和连接为一个双向表示r_j，这些向量进一步连接为一个矩阵R，矩阵的第j列对应r_j。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学，未经内蒙古工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111113235.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种双极结型晶体管及其制备方法
下一篇：一种模拟地下水氧化还原带的沙柱装置及使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合双语词典的蒙汉神经机器翻译方法在审

专利文献下载