[发明专利]神经机器翻译系统有效
| 申请号: | 201710882491.0 | 申请日: | 2017-09-26 |
| 公开(公告)号: | CN107870902B | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 穆罕默德·诺劳兹;陈智峰;吴永辉;迈克尔·舒斯特;国·V·勒 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 穆森;周亚荣 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经 机器翻译 系统 | ||
1.一种由一个或多个计算机实现的神经机器翻译系统,所述神经机器翻译系统被配置成接收表示第一自然语言的第一文字序列的输入语言符号的输入序列,并且生成表示是所述第一文字序列到第二自然语言的翻译的第二文字序列的输出语言符号的输出序列,所述神经机器翻译系统包括:
编码器神经网络,所述编码器神经网络包括:
正向输入长短期记忆(LSTM)层,所述正向输入长短期记忆层被配置成以正向次序对所述输入序列中的每个输入语言符号进行处理,以生成所述输入语言符号的相应正向表示,
反向输入LSTM层,所述反向输入LSTM层被配置成以反向次序对所述输入序列中的每个输入语言符号进行处理,以生成所述输入语言符号的相应反向表示,
组合层,所述组合层被配置成针对所述输入序列中的每个输入语言符号,对所述输入语言符号的所述正向表示和所述输入语言符号的所述反向表示进行组合,以生成所述输入语言符号的组合表示,以及
多个隐藏LSTM层,所述多个隐藏LSTM层被配置成以所述正向次序对所述输入序列中的每个输入语言符号的所述组合表示进行处理,以生成所述输入语言符号的相应编码表示,其中,为了允许并行化,所述多个隐藏LSTM层是单向的并且被一个接一个地布置在堆栈中;以及
解码器子系统,所述解码器子系统被配置成接收所述输入序列中的每个输入语言符号的所述相应编码表示,并且对所接收的编码表示进行处理以生成所述输出序列。
2.根据权利要求1所述的神经机器翻译系统,其中所述多个隐藏LSTM层包括至少七个LSTM层。
3.根据权利要求1所述的神经机器翻译系统,其中所述解码器子系统包括:
解码器神经网络,所述解码器神经网络包括:
多个LSTM层,所述多个LSTM层被以一个在一个之上地布置在堆栈中,并且被配置成为所述输出序列中的多个位置中的每个执行以下操作:
接收注意力上下文矢量和所述输出序列中的前一个位置处的输出语言符号,以及
对所述注意力上下文矢量和所述输出序列中的所述前一个位置处的所述输出语言符号进行处理,以生成针对所述位置的LSTM输出,以及
softmax输出层,所述softmax输出层被配置成为所述多个位置中的每个执行以下操作:接收所述针对所述位置的LSTM输出,以及生成针对输出语言符号的词汇中的每个输出语言符号的相应分值。
4.根据权利要求3所述的神经机器翻译系统,其中所述多个LSTM层包括至少八个LSTM层。
5.根据权利要求4所述的神经机器翻译系统,其中所述堆栈中的第一LSTM层被配置成为所述多个位置中的每个执行以下操作:
接收第一层输入,所述第一层输入包括:所述注意力上下文矢量,由所述堆栈中的在所述第一LSTM层直接下方的LSTM层生成的层输出,和至所述堆栈中的所述在所述第一LSTM层直接下方的LSTM层的层输入;以及
根据所述第一LSTM层的当前隐藏状态对所述第一层输入进行处理以生成第一层输出,并且对所述当前隐藏状态进行更新。
6.根据权利要求3所述的神经机器翻译系统,其中所述解码器子系统还包括:
注意力子系统,其中所述注意力子系统被配置成为所述多个位置中的每个执行以下操作:
接收注意力输入,所述注意力输入包括由所述解码器神经网络中的LSTM层的所述堆栈中的底部LSTM层生成的针对所述前一个位置的底层输出;以及
对所述注意力输入进行处理,以生成针对时间步长的注意力上下文矢量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710882491.0/1.html,转载请声明来源钻瓜专利网。





