[发明专利]一种基于树到序列的蒙汉机器翻译方法在审

专利信息
申请号: 201910922673.5 申请日: 2019-09-27
公开(公告)号: CN110728155A 公开(公告)日: 2020-01-24
发明(设计)人: 苏依拉;薛媛;赵旭;卞乐乐;范婷婷;张振 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/289;G06F40/12;G06N3/04
代理公司: 61215 西安智大知识产权代理事务所 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 解码器 注意力机制 单词 机器翻译 短语 短语结构 信息流动 序列模型 主动查询 对齐 数据集 语料 源侧 语句 平行 注意力 翻译
【说明书】:

发明一种基于树到序列的蒙汉机器翻译方法,采用树到序列NMT模型,扩展了具有源侧短语结构的序列到序列模型,在模型中加入了自注意力机制,这种自注意力机制不仅可以使得解码器在每一步主动查询最相关的信息,并且还大大缩短了信息流动的距离,另外它可以使得解码器在生成翻译的单词的同时能和源语句的短语以及单词进行对齐。120万蒙汉双语平行语料数据集的实验结果表明,本发明的模型明显优于序列到序列的注意力NMT模型,并且与最先进的树到串SMT系统相比更胜一筹。

技术领域

本发明属于机器翻译技术领域,特别涉及一种基于树到序列的蒙汉机器翻译方法。

背景技术

机器翻译(MT)一直是最复杂的语言处理问题之一,神经机器翻译(NMT)的最新进展使得使用简单的端到端架构进行翻译成为可能。

在编码器-解码器模型中,编码器读取整个源字序列以产生固定长度的向量,然后解码器从向量生成目标字。编码器-解码器模型已经扩展了注意力机制,它允许模型共同学习源语言和目标语言之间的软对齐。NMT模型在英语-法语和英语-德语翻译任务中取得了最新成果。然而,对于结构较远的语言对(如汉语–蒙语),NMT是否与传统的统计机器翻译(SMT)方法在翻译任务中具有竞争力还有待观察。

表1显示了一对汉语和蒙语的平行句子。在许多方面,汉语和蒙语在语言上相距遥远,它们具有不同的句法结构,单词和短语在不同的词汇单元中定义。在SMT中,已知将源语言的句法成分结合到模型中可改善单词对齐和翻译准确度。但是,现有的NMT模型不允许执行这种对齐。

表1蒙汉及其翻译语序问题

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于树到序列的蒙汉机器翻译方法,采用注意NMT模型来利用句法信息,在源句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的向量表示并在将输入短语和单词与输出对齐的同时对其进行解码。

为了实现上述目的,本发明采用的技术方案是:

一种基于树到序列的蒙汉机器翻译方法,采用编码器-解码器结构的NMT模型作为翻译流程的整体框架,所述编码器由序列编码器和基于树的编码器组成,序列编码器和基于树的编码器分别生成一个句子向量,其中,所述基于树的编码器中,基于头部驱动的短语结构语法,源语句由多个短语单元组成,并表示为二叉树,基于树的编码器为使用transformer构造的Tree-transformer结构,二叉树中的每个结点用transformer单元表示,从而在源语句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示,序列编码器得到正常句子的向量表示,基于树的编码器得到该句子的短语结构的向量表示,初始解码器s1具有两个子单元,分别是最终的序列编码器单元hn和最终的基于树的编码器单元初始化叶结点时用最终的序列编码器单元hn,初始化父结点时用基于树的编码器单元

所述基于树的编码器是在标准的序列编码器中构建,二者的架构关系如图3。

所述基于树的编码器使用左右子隐藏单元和计算第k个短语的第k个父隐藏单元如下所示:

其中ftree是非线性函数;在初始化基于树的编码器单元时,使用序列transformer单元,并使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元。

在初始化基于树的编码器单元时,采用序列transformer单元表示,即h0=0;使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元的公式为tree表示非线性函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910922673.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top