[发明专利]一种翻译模型训练方法、装置、电子设备及存储介质有效
| 申请号: | 202010105061.X | 申请日: | 2020-02-20 |
| 公开(公告)号: | CN111339789B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 李磊;王明轩;曹军;孙泽维 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242 |
| 代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 翻译 模型 训练 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种翻译模型训练方法、装置、电子设备及存储介质。该方法包括:获取源语种的第一源文档语料,将所述第一源文档语料拆分成第一源单语语料;将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及将所述平行双语语料作为训练样本来训练文档机器翻译模型。本公开实施例的技术方案能够实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
技术领域
本公开实施例涉及机器翻译技术领域,尤其涉及一种翻译模型训练方法、装置、电子设备及存储介质。
背景技术
机器翻译是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。
现有的机器翻译服务,一般都是将句子级别的源文本输入机器翻译模型进行翻译,一个句子一般是几个、十几个词汇构成的。也即,现有的机器翻译模型仅支持句子级别的翻译功能。当采用现有的机器翻译模型翻译文档中的各个语句时,由于不能整体考虑句子在文档中的上下文关系,其获得的翻译结果并不准确。因此,如何开发一种以文档为翻译对象的机器翻译模型是一个亟待解决的问题。
由于作为训练所需的文档级别的平行双语语料样本难以获得,因此,以文档为翻译对象的机器翻译模型难以训练成功。
发明内容
本公开实施例提供一种翻译模型训练方法、装置、电子设备及存储介质,实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
第一方面,本公开实施例提供了一种翻译模型训练方法,包括:
获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
将所述第一源文档语料拆分成第一源单语语料;
将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及
将所述平行双语语料作为训练样本来训练文档机器翻译模型。
第二方面,本公开实施例还提供了一种翻译模型训练装置,包括:
第一源文档语料获取模块,用于获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
第一源单语语料拆分模块,用于将所述第一源文档语料拆分成第一源单语语料;
第一目标单语语料获取模块,用于将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
第一目标文档语料获取模块,用于将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
第一训练样本获取模块,用于根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;
第一文档机器翻译模型训练模块,用于将所述平行双语语料作为训练样本来训练文档机器翻译模型。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010105061.X/2.html,转载请声明来源钻瓜专利网。





