[发明专利]语句翻译模型的训练方法及装置、语句翻译方法及装置有效
| 申请号: | 202010297142.4 | 申请日: | 2020-04-15 | 
| 公开(公告)号: | CN111222347B | 公开(公告)日: | 2020-07-28 | 
| 发明(设计)人: | 李长亮;李国良;郭馨泽 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 | 
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/126;G06N3/04 | 
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 | 
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 语句 翻译 模型 训练 方法 装置 | ||
1.一种语句翻译模型的训练方法,其特征在于,所述语句翻译模型包括编码器和解码器,其中,所述编码器包括n个编码层,所述解码器包括m个解码层,n和m均为大于等于2的正整数,所述方法包括:
获取待翻译语句和所述待翻译语句对应的目标语句,根据所述待翻译语句获得待翻译向量并输入至所述编码器,获得每个所述编码层输出的编码向量,根据所述目标语句获得目标向量并输入至所述解码器;
将每个所述编码层输出的编码向量输入至每个所述解码层,获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量;
根据每个所述解码向量与所述目标向量分别计算对应的损失值,并确定目标损失值;
根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。
2.如权利要求1所述的语句翻译模型的训练方法,其特征在于,对于第1个编码层;
获得每个所述编码层输出的编码向量,包括:
将所述待翻译向量输入至所述第1个编码层;
获得所述第1个编码层输出的第一编码向量。
3.如权利要求1所述的语句翻译模型的训练方法,其特征在于,对于第j个编码层,其中,1j=n;
获得每个所述编码层输出的编码向量,包括:
将第j-1个编码层输出的第j-1编码向量输入至所述第j个编码层;
获得所述第j个编码层输出的第j编码向量。
4.如权利要求1所述的语句翻译模型的训练方法,其特征在于,对于第1个解码层;
将每个所述编码层输出的编码向量输入至每个所述解码层,获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量,包括:
将每个所述编码层输出的编码向量和所述目标向量输入至所述第1个解码层;
获得所述第1个解码层根据每个所述编码层输出的编码向量和所述目标向量生成的与每个所述编码向量对应的解码向量。
5.如权利要求1所述的语句翻译模型的训练方法,其特征在于,对于第j个编码层和第k个解码层,其中,1=j=n,1k=m;
将每个所述编码层输出的编码向量输入至每个所述解码层,获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量,包括:
将第j个编码层输出的第j编码向量和第k-1个解码层输出的与第j编码向量对应的解码向量输入至第k个解码层;
获得所述第k个解码层根据第j编码向量和所述第j编码向量对应的解码向量生成的解码向量。
6.如权利要求1所述的语句翻译模型的训练方法,其特征在于,确定目标损失值,包括:
在每个所述损失值中选取最小损失值作为目标损失值。
7.如权利要求1所述的语句翻译模型的训练方法,其特征在于,对于第j个编码层和第k个解码层,其中,1=j=n,1=k=m;
根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型,包括:
根据所述目标损失值确定所述目标损失值对应的第j个编码层和第k个解码层;
调整第1-第j个编码层的参数和第1-第k个解码层的参数以训练所述语句翻译模型。
8.一种语句翻译方法,其特征在于,包括:
获取待翻译语句;
将所述待翻译语句输入至语句翻译模型中进行处理,其中,所述语句翻译模型是通过权利要求1-7任意一项所述的训练方法训练得到的;
所述语句翻译模型的编码器根据所述待翻译语句生成编码向量,并将所述编码向量输入至所述语句翻译模型的解码器中;
所述语句翻译模型的解码器根据所述编码向量生成对应的解码向量,并根据所述解码向量生成并输出所述待翻译语句对应的目标语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010297142.4/1.html,转载请声明来源钻瓜专利网。





