[发明专利]基于编码器-转换器-解码器框架的神经网络机器翻译方法在审
| 申请号: | 202010277181.8 | 申请日: | 2020-04-10 |
| 公开(公告)号: | CN111523329A | 公开(公告)日: | 2020-08-11 |
| 发明(设计)人: | 李磊;吴霖;刘科材 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 编码器 转换器 解码器 框架 神经网络 机器翻译 方法 | ||
本发明涉及基于编码器‑转换器‑解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。本发明利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。本发明基于编码器‑转换器‑解码器框架的翻译模型结构简单,易于实现。
技术领域
本发明涉及基于编码器-转换器-解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。
背景技术
常规神经网络机器翻译模型由编码器与解码器组成,编码器负责对源语言句子编码,解码器负责解码。在循环神经网络的情形下,编码后的句子信息以神经网络中隐含状态的形式存在,将这种隐含状态直接赋值给解码器,便完成了两者之间的信息传递。编码器或解码器结构信息主要有层数与隐含单元的个数,赋值实际上就是按照对应的层与单元进行逐一赋值。
Transformer在序列到序列的学习任务中(尤其是机器翻译任务)表现十分出色,展现了十分强大的序列至序列的对齐能力,因此本发明选择Transformer中的编码器作为转换器,提供一种基于编码器-转换器-解码器框架的神经网络机器翻译方法。
发明内容
本发明提供了基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译时,对编码器最后时刻的隐含状态进行转换,将转换后的状态信息赋值给解码器。
本发明的技术方案是:基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。
进一步地,所述转换器采用Transformer中的编码器TransformerEncoder。
进一步地,所述转换器转换编码器最后时刻的隐含状态的步骤如下:
步骤1:编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;
步骤2:将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
步骤3:按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
本发明的有益效果是:
(1)、本发明选择Transformer中的编码器作为转换器,该编码器主要由多层注意力机制与前馈神经网络组成,其中还包含了残差连接与层正规化等操作。该编码器的输出形状与输入形状相同,主要作用是对其输入做更深层次的抽象。在本发明中,它的目标是学习两种语言的隐含空间的对应关系。其输入为编码器最后时刻的隐含状态,其输出结果则对解码器的初始隐含状态进行赋值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010277181.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于清洗压滤机滤饼的清洗装置及清洗方法
- 下一篇:一种病例数据的特征分类方法





