[发明专利]基于共享编码器的汉越无监督神经机器翻译方法在审
申请号: | 202010985908.8 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112287694A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 余正涛;薛振宇;文永华;郭军军;王振晗;相艳 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/126;G06F40/242;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 共享 编码器 汉越无 监督 神经 机器翻译 方法 | ||
1.基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述方法包括如下:
Step1、分别训练汉语和越南语的单语词嵌入,找到最佳的映射矩阵,使得映射后的源语言与目标语言在同一语义空间下距离最近;
Step2、将源语言与目标语言的词嵌入映射到同一空间之中后,把距离最近的源语言与目标语言词对添加到词典中,进行词典自学习;
Step3、构建基于共享编码器的汉越无监督神经机器翻译模型,同时实现从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。
2.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y,Xi*为第i个源语言词嵌入,Yj*为第j个目标语言词嵌入;
Step1.2、将种子词典以二进制矩阵D的形式表示,当源语言中的第i个词和目标语言中的第j个词相互对齐时,Dij=1;利用公式找到最佳的映射矩阵W*,该最佳映射矩阵可以使映射后的Xi*和Yj*的欧几里得距离最短。
3.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、首先将训练的源语言与目标语言的词嵌入映射到同一空间之中,再通过邻近检索的方式,对每一个源语言的单词匹配一个意思最相近的目标语言单词,最后将这种对齐的源语言与目标语言词对添加到词典中,重新进行距离的计算,不断扩展词典,以此进行反复迭代,直到最终收敛为止。
4.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、构建的模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成,两个解码器分别为汉语解码器和越南语解码器,编码器为双层的双向循环神经网络BiGRU,解码器为双层的单向循环神经网络UniGRU;对于汉语L1中的每个句子,系统交替训练,用L1解码器重建它,并进行动态反向翻译,它是以推理模式翻译句子然后用共享编码器优化编码该翻译语句的概率,并用L1解码器恢复原始句子,训练在L1和L2中的句子之间交替进行;
Step3.2、在输入汉语L1句中引入随机噪声;
利用相同的自动编码器去噪原理,系统经过训练能重建损坏的输入句子的原始版本,通过在连续单词之间进行随机交换来改变输入句子的单词顺序,对于N个元素的序列,进行这种N/2个随机交换来学习该语言的内部结构以恢复正确的词序,同时,也能阻止系统过分依赖输入序列的词序;
Step3.3、基于回译方法,提出对偶结构形式的翻译模型体系;
与使用独立模型一次反向翻译整个语料库的标准反向翻译相反,使用正在训练的模型即时反向翻译每个小批量句子,这样,随着训练的进行和模型的改进,它将通过反向翻译产生更好的合成句子对,这将有助于在随后的迭代中进一步改进模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010985908.8/1.html,转载请声明来源钻瓜专利网。