[发明专利]一种融合双语词典的蒙汉神经机器翻译方法在审
申请号: | 202111113235.8 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113850090A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 仁庆道尔吉;庞蕊;程坤;尹玉娟;张倩;张文静;苏依拉;吉亚图 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 李慧奇 |
地址: | 010051 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 双语 词典 神经 机器翻译 方法 | ||
一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,意在解决NMT在翻译低频实词时经常出错的问题。首先构造词典概率,对于平行语料库中的词汇对,使用IBM模型通过无监督方式进行自动学习,对未被平行语料库覆盖的但收录于手制词典中的词汇对,定义翻译集并假设其为均匀分布;然后在编码阶段将词典概率转换为条件预测概率,然后将此预测概率与NMT模型的概率整合到一起,本发明使用两种整合方式:其一为;将其作为偏置、其二为;线性插值。
技术领域
本发明属于神经机器翻译技术领域,特别涉及一种融合双语词典的蒙汉神经机器翻译方法。
背景技术
机器翻译技术是研究如何利用计算机高效便捷的实现源语言到目标语言的自动转换,是计算语言学的重要研究领域之一。我国是一个多民族国家,各民族都有自己的语言,因此打破语言之间的交流障碍、促进民族交流尤为重要。内蒙古自治区使用蒙古语的人数较多,对于蒙古语文字与汉语文字之间的翻译有着迫切地需求,因此蒙汉翻译具有十分重要的意义。相对于其它语种,蒙汉机器翻译研究起步较晚,且蒙古语汉语分属于不同语系,机器翻译的译文质量不尽如人意。
随着深度学习的不断发展,基于深度学习的神经网络机器翻译模型成为机器翻译的研究热点。神经网络翻译模型是基于词、短语和句子的连续表示,连续的词向量可以更准确的表示词的形态、语义和语法信息,能够精确地刻画近义词之间的关系。由于神经网络本身结构的复杂性,通常编解码端的词汇表大小都不宜过大,否则会使得模型过于庞大,大大降低模型的训练速度。此外,低频词的加入反而可能降低网络的性能表现。规模受限的词表引入了大量的罕见词或未登录词,导致其在翻译对理解句子意义至关重要的低频内容词时经常出错。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明的目的在于提供一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地编码低频词的翻译。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地解决NMT在翻译低频实词时经常出错的问题。本发明包括以下步骤:步骤一、对训练数据、其他外部并行数据资源(如手制字典)或两者结合,使用传统的单词对齐方法来构造这些词汇概率;步骤二、使用注意力NMT模型中的注意力向量,将词典翻译概率转换为下一个单词的预测概率;步骤三、通过NMT概率的线性插值,或者将其作为NMT预测分布的偏差,将该概率纳入NMT。
步骤一中使用三种方式构造词典概率,分别为自动学习词典,手制词典与混合词典。自动学习词典的词典概率直接使用IBM之类的翻译模型从平行语料库中通过无监督的方式进行学习。这些模型可以使用期望最大化(EM)算法估计两种语言标记之间的词对齐和词法转换概率pl(y|x)。在期望步骤中,算法首先估计期望的计数c(y|x)。在最大化步骤,词典概率由期望技术除以所有可能的总数算得:
NMT受训练速度与内存的约束,导致许多罕见词未被目标词表VY覆盖,据此,将词典所分配的剩余概率分配给未知的单词符号unk:
手制词典不包含翻译概率,为构造概率pl(y|x),为特定源词x定义存在于词典中的翻译集Kx,并假设这些词是均匀分布的:
未登录源词将其概率质量分配给unk标签。
手制词典的词汇覆盖率更高,但其概率不如自动学习词典的精确。故构造一种混合方法,将手制词典补充到自动学习词典中,默认使用自动学习词典pl,a,对未覆盖词使用手制词典:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111113235.8/2.html,转载请声明来源钻瓜专利网。