[发明专利]多语言模型的训练方法、装置、电子设备和可读存储介质有效
| 申请号: | 202011387501.1 | 申请日: | 2020-12-01 |
| 公开(公告)号: | CN112528669B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 欧阳轩;王硕寰;庞超;孙宇;田浩;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 模型 训练 方法 装置 电子设备 可读 存储 介质 | ||
本申请公开了一种多语言模型的训练方法、装置、电子设备和可读存储介质,涉及深度学习、自然语言处理技术领域。本申请在训练多语言模时的技术方案为:获取训练语料,训练语料中包含多条双语语料和多条单语语料;使用多条双语语料对多语言模型进行第一训练任务的训练;使用多条单语语料对多语言模型进行第二训练任务的训练;在确定第一训练任务与第二训练任务的损失函数收敛的情况下,完成多语言模型的训练。本申请能够使得多语言模型实现不同语言之间的语义交互,提升了多语言模型在学习多语言语料的语义表示时的准确性。
技术领域
本申请涉及信息处理技术领域,尤其涉及深度学习、自然语言处理技术领域中的一种多语言模型的训练方法、装置、电子设备和可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是人工智能(ArtificialIntelligence,AI)的一个非常重要的子领域。现有的NLP任务的学习范式大多采用预训练(Pre-training)加微调(Fine-tuning)的方式。首先通过预训练任务在无监督语料中初步建模,然后在下游任务上使用任务数据进行微调。且现有的经验表明,预训练模型可以起到对模型参数的正则化的约束作用,可以极大的提升下游任务的表现能力。基于以上所述,且随着全球化的不断发展,不同语言之间的信息交换也越来越重要,为了提升多语言模型在多语言任务上的性能,多语言模型的建模显得尤为重要。
现有的多语言模型在进行预训练时,通常会根据双语语料或者单语语料进行训练。但是现有的多语言模型无论是使用双语语料还是单语语料进行预训练,都无法学习到不同语言之间的语义对齐信息,导致多语言模型无法准确地实现不同语言之间的信息交互。
发明内容
本申请为解决技术问题所采用的技术方案是提供一种多语言模型的训练方法,包括:获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。
本申请为解决技术问题所采用的技术方案是提供一种多语言模型的训练装置,包括:获取单元,用于获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;第一训练单元,用于使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;第二训练单元,用于使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;确定单元,用于在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。
一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387501.1/2.html,转载请声明来源钻瓜专利网。





