[发明专利]一种神经机器翻译鲁棒性增强方法、设备及存储介质有效
| 申请号: | 202210527147.0 | 申请日: | 2022-05-16 |
| 公开(公告)号: | CN114841176B | 公开(公告)日: | 2023-09-01 |
| 发明(设计)人: | 熊德意;薛征山 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/232;G06F40/284;G06N3/08 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 张建中 |
| 地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 神经 机器翻译 鲁棒性 增强 方法 设备 存储 介质 | ||
1.一种神经机器翻译鲁棒性增强方法,其特征在于,构建基于子词的神经机器翻译模型,在神经机器翻译模型中设有用于检测噪声子词位置的错误位置探测模块;在对神经机器翻译模型训练时,由干净的批训练样本生成带噪声的批训练样本;将干净的批训练样本与带噪声的批训练样本交互对神经机器翻译模型进行训练,并计算损失函数;损失函数包括两部分,一部分是错误位置检测损失函数,一部分是机器翻译损失函数;采用启发式的算法,将带噪声的词修复成干净的词;子词实现方式采用的是sentencepiece算法;错误位置探测模块基于二分类神经网络模型构建;
错误位置检测损失函数为:
式中:
yi表示样本i的标签,正确位置为0,错误位置为1;
pi表示样本i预测为错误位置的概率;
Lerror-position-detect表示错误位置检测损失;
N表示样本数量;
将干净的批训练样本与带噪声的批训练样本交互对神经网络机器翻译模型进行训练,机器翻译损失函数为:
Lnmt=Lclean-batch+λ*Lnoisy-batch;
式中:
Lnmt表示机器翻译损失;
Lclean-batch表示干净的批训练样本的机器翻译损失;
Lnoisy-batch表示带噪声的批训练样本的机器翻译损失;
λ表示Lnoisy-batch在整体损失中的权重占比;取值范围为0~1之间;
神经机器翻译模型的损失函数为:
LDetTransNet=Lerror-position-detect+Lnmt;
式中:
LDetTransNet表示神经机器翻译模型的损失;
对于带噪声的批训练样本,训练时设置如下约束:
约束一:当P(y|xclean;θmt)P(y|xnoisy;θmt)时,需要继续优化,让噪声向着干净数据的概率靠近;
约束二:当P(y|xclean;θmt)P(y|xnoisy;θmt)时,不需要继续优化;
则带噪声的批训练样本的机器翻译损失函数为:
Dgap=logP(y|xclean;θmt)-logP(y|xnoisy;θmt);
式中:
Dgap表示当前干净样本和噪声样本在当前模型参数θmt的损失差值;
xclean表示干净样本;
xnoisy表示噪声样本;
y表示标准参考译文;
θmt表示机器翻译模型参数;
N表示样本数量;
P(y|xclean;θmt)表示干净样本翻译成标准参考译文的概率;
P(y|xnoisy;θmt)表示噪声样本翻译成标准参考译文的概率。
2.根据权利要求1所述的神经机器翻译鲁棒性增强方法,其特征在于,由干净的批训练样本生成带噪声的批训练样本的方法包括将干净的批训练样本中的词进行如下一种或几种方法的处理:随机插入一个字符到词中;随机删除词中的一个字符;随机替换词中的一个字符;随机交换词中的相邻或者不相邻的字符。
3.根据权利要求2所述的神经机器翻译鲁棒性增强方法,其特征在于,随机替换词中的一个字符的方法为:根据键盘的字母位置,将某个字符替换成键盘上附近的字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210527147.0/1.html,转载请声明来源钻瓜专利网。





