[发明专利]主动学习平行语料构建方法有效

专利信息
申请号: 201811026790.5 申请日: 2018-09-04
公开(公告)号: CN109284511B 公开(公告)日: 2023-05-16
发明(设计)人: 熊德意;张培 申请(专利权)人: 苏州大学
主分类号: G06F40/58 分类号: G06F40/58;G06N20/00
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 殷海霞
地址: 215000 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 主动 学习 平行 语料 构建 方法
【说明书】:

发明涉及一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:获取原始平行语料和源端单语;获取所述原始平行语料的embedding和所述源端单语的embedding;计算所述源端单语中的每句话和所述平行语料的相似度;对所述源端单语中的每句话按照相似程度进行排序,选择前面设定百分比的句子;获取上述“前面设定百分比的句子”进行人工翻译后的目标端单语;将所述人工翻译后的目标端单语和上述“前面设定百分比的句子”构成的平行语料加入到所述原始平行语料中,组成新的平行语料;用所述新的平行语料,训练出新的模型。

技术领域

本发明涉及神经机器翻译,特别是涉及主动学习平行语料构建方法。

背景技术

随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的进展。基于深度学习的Neural Machine Translation越来越受到人们的关注。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。

在机器翻译的领域,低资源的语言对的翻译仍然面临着巨大的挑战。主要是低资源的平行语言对我们难以获得。为了获得平行语言对,我们常常通过对某一方的单语进行人工翻译,但人工翻译的成本是昂贵的,需要花费巨大的人力和时间。

主动学习(Active-Learning),是一种应用在对获取数据难、代价大的任务上。主动学习是从任务出发,主动的去构建对模型学习最重要的样本。因此,主动学习应用在机器翻译低资源的领域有着很好的效果。

传统技术存在以下技术问题:

现有的将active learning框架用到机器翻译上的:论文Active learning forstatistical phrase-based machine translation,Conference of the North AmericanChapter of the Association of Computational Linguistics.将主动学习的框架应用到统计机器翻译上,并验证了各种挑选句子的方法。

论文:Survey of data-selection methods in statistical machinetranslation,Machine Translation,pages 189–223.总结了挑选句子的一个调研,可以归纳与模型和数据这两个角度。

此前的主动学习中的一些挑选句子方法只是适用于统计机器翻译,但应用到神经机器翻译系统中,并不能解决问题,或者并没有什么效果。

此前的一些方法,只是单一的提出对数据的覆盖率,并没有对神经机器翻译的特征进行考虑。

当前,一个好的神经机器翻译模型需要大量的平行语料,在某些低资源的语言对里,很难获得相应的平行语料,但很多时候,我们可以获取大量的源端单语,并把这些单语交给专家翻译。在基于主动学习框架下,传统的一些方法并未真正的取得效果。

发明内容

基于此,有必要针对上述技术问题,提供一种主动学习平行语料构建方法。

一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:

获取原始平行语料和源端单语;

获取所述原始平行语料的embedding和所述源端单语的embedding;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811026790.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top