[发明专利]神经网络机器翻译训练方法、系统、介质、设备及应用在审

专利信息
申请号: 202110374901.7 申请日: 2021-04-08
公开(公告)号: CN112966529A 公开(公告)日: 2021-06-15
发明(设计)人: 贝超;程国艮 申请(专利权)人: 中译语通科技股份有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/44
代理公司: 北京万贝专利代理事务所(特殊普通合伙) 11520 代理人: 马红
地址: 100131 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 神经网络 机器翻译 训练 方法 系统 介质 设备 应用
【说明书】:

发明属于机器翻译技术领域,公开了一种神经网络机器翻译训练方法、系统、介质、设备,所述神经网络机器翻译训练方法包括:训练mBART模型;使用双语语料,基于mBART模型进行增量训练;翻译单语,构建伪平行数据;使用伪平行数据和双语语料,基于mBART模型继续进行增量训练;从零开始训练transformer结构的模型;翻译单语,构建新的伪平行数据;从零开始再次训练transformer结构的模型;利用零命中技术训练直接到中文的模型;翻译时,在原文前加入‑‑tozh‑‑标签,直接翻译至中文。本发明能够有效利用单语的信息,使得小语种到英语的模型提升到可用的程度。

技术领域

本发明属于机器翻译技术领域,尤其涉及一种神经网络机器翻译训练方法、系统、介质、设备。

背景技术

目前,机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向,具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展,机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。

如英中、英法、英德等较大的语种的机器翻译质量已达基本可用的今天,人们对于机器翻译的认可度也越来越高了,一定程度上替代了翻译的角色,已经成为出国的必备工具。而世界交流越发紧密,对于小语种机器翻译的需求也越来越迫切,如普什图语、高棉语、波斯语等等。

训练一个可用的机器翻译模型,一般需要千万句对以上的质量较好的双语语料,语种不同会有部分差异。但是目前小语种的双语语料的数量和质量都不尽如人意,与大语种相比,无法训练得到一个可用的机器翻译模型。例如普什图语,互联网上搜集的双语语料仅仅百万级别但质量较差。经过处理后得到的也就二十万可用做机器翻译训练。因此,如何解决小语种双语语料稀少且质量差的问题是小语种机器翻译的重点探究问题。

其次,小语种的双语语料一般也是翻译至英文,也就是与英文组成双语句对,但国内更大的需求在于翻译为中文。一般采用间接语的方式,先从小语种翻译至英文,再从英文翻译至中文。然而这样的方式往往在中间丢失了很多信息,很多地道的词以及说法会出现问题。并且会出现错误累积的现象:小语种翻译至英文就出现了问题但还能阅读,紧接着英文翻译至中文就错上加错,导致无法阅读了。因此,如何解决小语种翻译至中文的问题需要重点探究。

通过上述分析,现有技术存在的问题及缺陷为:

(1)目前小语种的双语语料的数量稀少且质量较差,与大语种相比,无法训练得到一个可用的机器翻译模型,翻译质量差,无法使用。

(2)采用间接语的方式,在中间丢失了很多信息,很多地道的词以及说法会出现问题,并且会出现错误累积的现象。例如普什图语到英文中,把7月翻译成7 days,再从英文翻译到中文时,原文7 days其实已经错了,那么得到的中文译文的问题就更大了。

解决以上问题及缺陷的难度为:小语种双语语料十分稀少,互联网上难以寻找。

解决以上问题及缺陷的意义为:小语种(例如普什图语、波斯语等等)机器翻译也可以进行使用了,这对国际交流是有重大意义的,普通人也可以进行交流,减少了对于高成本的小语种人工翻译的需求。

发明内容

针对现有小语种语料较少的问题,本发明提供了一种神经网络机器翻译训练方法、系统、介质、设备,尤其涉及一种多语言双向自回归变压器mBART预训练模型的神经网络机器翻译训练方法及系统。

本发明是这样实现的,一种神经网络机器翻译训练方法,所述神经网络机器翻译训练方法包括以下步骤:

步骤一,训练基于变压器的双向编码器BERT的mBART模型;

步骤二,使用双语语料,基于已经训练好的mBART模型进行增量训练;

步骤三,使用步骤二训练得到的模型翻译单语,并构建伪平行数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110374901.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top