[发明专利]基于模拟未来时刻的翻译信息的神经机器翻译方法有效
申请号: | 201810785649.7 | 申请日: | 2018-07-17 |
公开(公告)号: | CN108984539B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 段湘煜;汪琪;骆卫华;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模拟 未来 时刻 翻译 信息 神经 机器翻译 方法 | ||
本发明涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法,为获得良好的神经机器翻译而设计。本发明模拟未来时刻的翻译信息,从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟,本发明显著提高了神经机器翻译模型NMT的翻译质量。
技术领域
本发明属于机器学习技术领域,具体涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法。
背景技术
传统的机器翻译方法为统计机器翻译方法(Statistical Machine Translation,简称SMT),从大规模平行语料中统计诸如词对、平行短语对、平行句法结构等的信息,以建立针对翻译过程的统计模型。近年来,随着深度学习的发展,利用神经网络将源语言映射到目标语言的翻译模型,即神经机器翻译模型(Neural Machine Translation,简称NMT),显著提升了机器翻译的质量,超越了传统统计机器翻译方法的性能,成为目前工业界和学术界的主流方法。
基准神经机器翻译系统为编码-解码框架,将源语言编码为隐藏向量信息,再把该隐藏向量信息解码为目标语言[Sutskever et al.,2014;Bahdanau et al.,2015]。编码和解码功能均通过循环神经网络(Recurrent Neural Networks,简称RNNs)实现。这两个循环神经网络是通过一个注意力层(Attention Layer)连接建模的,在翻译目标单词时检测其与源端语句相关的部分,这个过程称之为使用注意力机制(Attention)。神经机器翻译是一种端到端的翻译模型,它在给定源端语句X=x1,x2,...,x|X|的条件下直接对目标端语句Y=y1,y2,...,y|Y|的条件概率P(Y|X)进行建模:
其中,源端语句X通过编码器编码为隐藏层向量H=h1,h2,...,h|x|,解码器根据条件概率逐字地预测出目标语句Y。第j个目标端单词的计算概率为:
P(yj|y<j,X)=g(sj,yj-1,cj)
其中,g是一个非线性概率函数,sj是目标端的隐藏层向量,cj是通过注意力机制cj=Att(sj-1,hi)得到的上下文向量,Att函数具体如下:
其中,υTa、Wa、Ua是参数矩阵,这种注意力机制可以构建在生成目标端当前词时对源端所有词的注意力分布。
基准神经机器翻译系统为编码-解码框架中解码过程按照自左向右的顺序依次解码,而没有考虑到未来时刻的翻译内容对当前时刻的翻译的影响。基准神经机器翻译系统是以自左向右的方式进行翻译的,这使得在翻译过程中,自右向左产生的目标端上下文信息从未被利用到。因此,对传统的神经机器翻译加上一个反向的解码器,可以探索神经机器翻译的双向解码。
基于该思想,异步的双向解码方法被提出[Zhang Xet al.,2018]。首先,该方法添加了一个反向解码器按照自右向左的顺序进行翻译,生成目标端隐藏层向量;其次,正向解码器按照自左向右的顺序进行翻译,每一步同时使用源端隐藏层向量和反向解码器生成的目标端隐藏层向量。通过这种新型的架构得到的模型能够充分地利用源端信息和目标端未来信息,提高翻译效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810785649.7/2.html,转载请声明来源钻瓜专利网。