[发明专利]基于模拟未来时刻的翻译信息的神经机器翻译方法有效
申请号: | 201810785649.7 | 申请日: | 2018-07-17 |
公开(公告)号: | CN108984539B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 段湘煜;汪琪;骆卫华;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模拟 未来 时刻 翻译 信息 神经 机器翻译 方法 | ||
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,包括:
基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;
固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;
固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate近似于理想概率分布pgold;
训练一个多层感知机MLP,模拟BP:
pBP=σ(MLP(concat(si,ci)))
losslength=(pBP-BP)2
其中,si是当前时刻i的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数;pBP是模拟的长度惩罚,通过优化损失函数losslength使模拟的长度惩罚pBP近似真实的长度惩罚BP;当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:
其中,c为当前时刻目标端翻译的句长,r为参考答案的句长;
训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献,用一个预测的概率分布ppredicate来模拟pgold:
ppredicate=MLP’(concat(si,ci))
losscontext=-(pglod)*log(ppredicate)
其中,ppredicate是基于将基准系统的目标端隐藏层向量si和源端上下文向量ci相连,通过MLP’层所预测的目标词的概率分布,并优化交叉熵损失函数losscontext使得ppredicate和pgold相近似,pgold为当前时刻目标端词的概率分布;
未来目标端上下文向量c’i的获取方法包括:在目标端添加了一个双向编码器,对目标端Y=y1,y2,...,y|Y|进行编码得到目标端隐藏层向量序列Z=z1,z2,...,z|Y|;
针对当前时刻i,构建当前时刻i的解码器隐藏层向量si对zi+1,…,zi+k的注意力机制,从而获得未来目标端上下文向量c’i:
ci'=Att(si,Z')
其中,si是当前时刻i的解码器隐藏层向量,Z’=zi+1,zi+2,...,zi+k是Z序列中当前时刻i的未来时刻的隐藏层向量,Att是注意力机制函数,k,1=k|Y|-i,表示考虑未来k步;
在获得未来目标端上下文向量c’i之后,通过以下方式将其作为未来信息贡献到当前词的概率分布计算中:
pgold=Softmax(concat(si,ci'))
lossgold=-log(pgold(yi))
其中,c’i同当前时刻i的解码器隐藏层向量si相连,经Softmax层输出当前时刻目标端词的概率分布pgold;通过最小化损失函数lossgold,使得正确答案yi的概率在概率分布pgold中最大化,从而优化未来目标端上下文向量c’i对概率分布pgold的贡献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810785649.7/1.html,转载请声明来源钻瓜专利网。