[发明专利]融合EMD最小化双语词典的汉-越无监督神经机器翻译方法有效
| 申请号: | 202010096013.9 | 申请日: | 2020-02-17 |
| 公开(公告)号: | CN111753557B | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 余正涛;薛明亚;高盛祥;赖华;翟家欣;朱恩昌;陈玮 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/284;G06F40/242;G06F40/247;G06F16/951 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 代转嫚 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 emd 最小化 双语 词典 监督 神经 机器翻译 方法 | ||
1.融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,其特征在于:
具体步骤如下:
Step1、语料收集:使用网络爬虫爬取汉语和越南语单语语料;
Step2、语料预处理:在步骤Step1的基础上,对汉语和越南语单语句子分词和词性标记,训练得到单语词向量;
Step3、基于EMD最小化的无监督双语词典:在步骤Step2的基础上,根据汉语和越南语单语词向量,利用基于EMD最小化的方法训练无监督的汉越双语词典;
Step4、得到汉越双语词嵌入:在步骤Step2和Step3的基础上,将基于EMD最小化的无监督双语词典作为种子词典指导双语词嵌入的学习;生成汉越双语词嵌入;
Step5、在步骤Step4的基础上,将双语词向量应用在共享编码器的无监督神经机器翻译模型上,训练得到融合EMD最小化双语词典的汉-越无监督神经机器翻译模型;
步骤Step4中,进行词嵌入映射:假设语言汉语和越南语的词嵌入矩阵分别为X和Y,为源语言的第i个词的向量,为目标语言的第j个词的向量;词典D为一个二进制的矩阵,当源语言第i个词与目标语言的第j个词对齐时,Dij=1,词映射的目标是找到一个映射矩阵W*,使映射后的和的欧几里得距离最近,即
对矩阵X和Y进行标准化和中心化,并将W设置为正交矩阵后,上述求解欧几里得距离的问题相当于最大化点积:
其中,Tr表示矩阵的迹运算,求解得到最优解为W*=UVT,U、V表示两个正交矩阵,经过奇异值分解,XTDY=U∑VT,鉴于矩阵D是稀疏的,在线性时间内得到解;
词典自学习为:映射后的源语言词的词向量与目标语言词的词向量在同一个空间,根据最近邻检索的方法,为每个源语言词分配一个距离最近的目标语言词,将对齐的词对添加到词典中,再次进行迭代,直到收敛。
2.根据权利要求1所述的融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤为:
Step2、汉语和越南语单语句子分词和词性标注,用分词和词性标注工具进行汉语和越南语单语语料的分词处理和词性标注,利用词向量训练工具获得汉越单语词嵌入。
3.根据权利要求1所述的融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:
Step3、用汉语词向量分布与越南语词向量分布之间的EMD最小化方法,将词向量视为概率分布,将分布之间的距离作为词汇表级别的准则,以不使用任何种子词典的无监督方式训练找到汉越词向量分布之间的EMD最小化,获得汉越双语词典。
4.根据权利要求1所述的融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,其特征在于:步骤Step4的具体步骤为:
利用Step3中获得的汉越双语词典作种子词典;利用自学习模型指导汉越单语词嵌入训练;获得汉越双语词嵌入训练。
5.根据权利要求1所述的融合EMD最小化双语词典的汉-越无监督神经机器翻译方法,其特征在于:步骤Step5中:
使用共享编码器模型,将训练好的融合EMD双语词典的双语词嵌入应用在共享编码器的模型中,用于实现汉-越双语之间的词级对应关系,训练汉越无监督的神经机器翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010096013.9/1.html,转载请声明来源钻瓜专利网。





