[发明专利]翻译模型的训练方法、装置、设备和存储介质有效

专利信息
申请号: 202110454958.8 申请日: 2021-04-26
公开(公告)号: CN113139391B 公开(公告)日: 2023-06-06
发明(设计)人: 潘骁;王明轩;吴礼蔚;李磊 申请(专利权)人: 北京有竹居网络技术有限公司
主分类号: G06F40/47 分类号: G06F40/47;G06F40/247;G06F40/126
代理公司: 北京远智汇知识产权代理有限公司 11659 代理人: 范坤坤
地址: 101299 北京市平*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 翻译 模型 训练 方法 装置 设备 存储 介质
【说明书】:

本公开实施例公开了一种翻译模型的训练方法、装置、设备和存储介质。该方法包括:获取至少一个原始语料;将所述原始语料中源端语料的至少一个原始词汇对齐替换为同含义的目标词汇,得到所述原始语料对应的替换语料;其中,所述原始词汇与所述目标词汇的语种不同;基于所述原始语料与所述替换语料构造伪平行语料,并使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型。该方法提升了翻译模型在其它非通用语种对上的翻译准确性。

技术领域

本公开实施例涉及计算机技术领域,尤其涉及一种翻译模型的训练方法、装置、设备和存储介质。

背景技术

随着计算机技术的不断发展,各种各样的翻译软件应运而生,成为了人们获取外部信息的重要渠道。

现有的翻译软件,其语言翻译模型的建立,通常是基于某一通用语种为中心的平行语料进行训练得到的,用于实现通用语种与其它语种之间的翻译(以通用语种为英语为例,如实现英译法等)。但是,这样的翻译软件在其它非通用语种对(例如,德译法)上的翻译准确性较低。

发明内容

本公开提供一种翻译模型的训练方法、装置、设备和存储介质,以提高翻译模型在各场景下的翻译准确性。

第一方面,本公开实施例提供了一种翻译模型的训练方法,包括:

获取至少一个原始语料;

将所述原始语料中源端语料的至少一个原始词汇对齐替换为同含义的目标词汇,得到所述原始语料对应的替换语料;其中,所述原始词汇与所述目标词汇的语种不同;

基于所述原始语料与所述替换语料构造伪平行语料,并使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型。

第二方面,本公开实施例提供了一种翻译模型的训练装置,包括:

获取模块,用于获取至少一个原始语料;

替换模块,用于将所述原始语料中源端语料的至少一个原始词汇对齐替换为同含义的目标词汇,得到所述原始语料对应的替换语料;其中,所述原始词汇与所述目标词汇的语种不同;

构造模块,用于基于所述原始语料与所述替换语料构造伪平行语料;

训练模块,用于使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型。

第三方面,本公开实施例提供了一种翻译模型的训练设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例第一方面提供的翻译模型的训练方法的步骤。

第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例第一方面提供的翻译模型的训练方法的步骤。

本公开实施例提供的技术方案,获取至少一个原始语料,将原始语料中源端语料的至少一个原始词汇对齐替换为同含义的目标词汇,得到原始语料对应的替换语料,且原始词汇与目标词汇的语种不同;基于原始语料与替换语料构造伪平行语料,并使用伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型。也就是说,通过将原始语料中源端语料的至少一个原始词汇对齐替换为其它任意语种的同义词汇后,能够构造出大量包含其它任意语种的伪平行语料,使用该伪平行语料训练翻译模型,使得翻译模型能够学习到其它任意语种之间的语法结构以及词汇关联,从而提高了翻译模型在其它非通用语种对上的翻译准确性。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1为本公开实施例提供的翻译模型的训练方法的一种流程示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110454958.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top