[发明专利]主动学习平行语料构建方法有效
申请号: | 201811026790.5 | 申请日: | 2018-09-04 |
公开(公告)号: | CN109284511B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 熊德意;张培 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N20/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 殷海霞 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主动 学习 平行 语料 构建 方法 | ||
本发明涉及一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:获取原始平行语料和源端单语;获取所述原始平行语料的embedding和所述源端单语的embedding;计算所述源端单语中的每句话和所述平行语料的相似度;对所述源端单语中的每句话按照相似程度进行排序,选择前面设定百分比的句子;获取上述“前面设定百分比的句子”进行人工翻译后的目标端单语;将所述人工翻译后的目标端单语和上述“前面设定百分比的句子”构成的平行语料加入到所述原始平行语料中,组成新的平行语料;用所述新的平行语料,训练出新的模型。
技术领域
本发明涉及神经机器翻译,特别是涉及主动学习平行语料构建方法。
背景技术
随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的进展。基于深度学习的Neural Machine Translation越来越受到人们的关注。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。
在机器翻译的领域,低资源的语言对的翻译仍然面临着巨大的挑战。主要是低资源的平行语言对我们难以获得。为了获得平行语言对,我们常常通过对某一方的单语进行人工翻译,但人工翻译的成本是昂贵的,需要花费巨大的人力和时间。
主动学习(Active-Learning),是一种应用在对获取数据难、代价大的任务上。主动学习是从任务出发,主动的去构建对模型学习最重要的样本。因此,主动学习应用在机器翻译低资源的领域有着很好的效果。
传统技术存在以下技术问题:
现有的将active learning框架用到机器翻译上的:论文Active learning forstatistical phrase-based machine translation,Conference of the North AmericanChapter of the Association of Computational Linguistics.将主动学习的框架应用到统计机器翻译上,并验证了各种挑选句子的方法。
论文:Survey of data-selection methods in statistical machinetranslation,Machine Translation,pages 189–223.总结了挑选句子的一个调研,可以归纳与模型和数据这两个角度。
此前的主动学习中的一些挑选句子方法只是适用于统计机器翻译,但应用到神经机器翻译系统中,并不能解决问题,或者并没有什么效果。
此前的一些方法,只是单一的提出对数据的覆盖率,并没有对神经机器翻译的特征进行考虑。
当前,一个好的神经机器翻译模型需要大量的平行语料,在某些低资源的语言对里,很难获得相应的平行语料,但很多时候,我们可以获取大量的源端单语,并把这些单语交给专家翻译。在基于主动学习框架下,传统的一些方法并未真正的取得效果。
发明内容
基于此,有必要针对上述技术问题,提供一种主动学习平行语料构建方法。
一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:
获取原始平行语料和源端单语;
获取所述原始平行语料的embedding和所述源端单语的embedding;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811026790.5/2.html,转载请声明来源钻瓜专利网。