[发明专利]翻译模型的训练方法、装置、设备和存储介质有效
申请号: | 202110454958.8 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113139391B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 潘骁;王明轩;吴礼蔚;李磊 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/247;G06F40/126 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种翻译模型的训练方法,其特征在于,包括:
获取至少一个原始语料;
基于多语种的同义词词典将所述原始语料中源端语料的至少一个原始词汇对齐替换为同含义的目标词汇,得到所述原始语料对应的替换语料;其中,所述原始词汇与所述目标词汇的语种不同;
基于所述原始语料与所述替换语料构造伪平行语料,并使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型;
所述替换语料中的各目标词汇的语种至少部分不同;
其中,所述基础翻译模型包括编码器和解码器;
所述使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型,包括:
构建所述伪平行语料中的伪源端语料的正例语料和负例语料;所述伪平行语料包括成对的伪源端语料和伪目标端语料,伪源端语料为翻译之前的语料,伪目标端语料为伪源端语料经过翻译后的语料;所述正例语料是指与伪源端语料匹配度大于第一预设值的语料,所述负例语料是指与伪源端语料匹配度小于第二预设值的语料,所述第一预设值大于第二预设值;
将所述伪源端语料、所述正例语料以及所述负例语料输入至所述编码器中,得到所述伪源端语料对应的第一向量表示、所述正例语料对应的第二向量表示以及所述负例语料对应的第三向量表示;
根据所述第一向量表示和所述第二向量表示,确定第一损失函数的第一损失值,并基于所述第一损失值更新所述编码器的参数,直至所述第一损失函数的第一损失值满足收敛条件;
根据所述第一向量表示和所述第三向量表示,确定所述第一损失函数的第二损失值,并基于所述第二损失值更新所述编码器的参数,直至所述第一损失函数的第二损失值满足收敛条件。
2.根据权利要求1所述的方法,其特征在于,所述原始语料包括单语语料和/或平行语料;其中,所述单语语料为所述源端语料,所述平行语料包括成对的源端语料和目标端语料。
3.根据权利要求1所述的方法,其特征在于,其中,所述第一损失函数为对比学习损失函数,用于更新所述编码器的参数。
4.根据权利要求1所述的方法,其特征在于,所述使用所述伪平行语料对预设的基础翻译模型进行训练,以获取目标翻译模型,包括:
使用所述伪平行语料,通过第一损失函数和第二损失函数对所述基础翻译模型进行多任务训练,以获取目标翻译模型;其中,所述第一损失函数为对比学习损失函数,用于更新所述编码器的参数,所述第二损失函数用于更新所述编码器和所述解码器的参数。
5.根据权利要求1所述的方法,其特征在于,其中,训练目标为最大化所述伪源端语料和所述正例语料的向量表示之间的相似度,最小化所述伪源端语料和所述负例语料的向量表示之间的相似度。
6.根据权利要求1所述的方法,其特征在于,当所述原始语料为单语语料时,所述基于所述原始语料与所述替换语料构造伪平行语料,包括:
将所述单语语料对应的替换语料作为伪源端语料以及将所述单语语料作为伪目标端语料,组成伪平行语料。
7.根据权利要求1所述的方法,其特征在于,当所述原始语料为平行语料时,所述基于所述原始语料与所述替换语料构造伪平行语料,包括:
将所述平行语料中源端语料对应的替换语料作为伪源端语料,以及将所述平行语料中目标端语料作为伪目标端语料,组成伪平行语料。
8.根据权利要求6或7所述的方法,其特征在于,所述正例语料为所述伪目标端语料。
9.根据权利要求6或7所述的方法,其特征在于,所述负例语料为其它伪平行语料中的伪目标端语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454958.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钽靶材及其制备方法
- 下一篇:一种用于伸入辐射狭窄空间作业的移动机器人