[发明专利]一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法有效
申请号: | 201710491848.2 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107301173B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 郭宇航;黄河燕;曹倩雯 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼接 混合 方式 神经网络 自动 编辑 系统 方法 | ||
1.一种基于拼接再混合的多源神经网络自动译后编辑方法,其特征在于:其中,多源指译后编辑的输入可以来自于多种不同的源语言,包括机器翻译译文与翻译原文;
所依托的系统能够使得翻译原文与初步翻译结果在译后编辑过程中相互影响,交叉验证,提高翻译忠实度,进而提高译后编辑结果的整体质量;
本系统包括训练模块与解码模块;
训练模块的功能是训练基于拼接再混合的多源神经网络自动译后编辑系统,输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连;
定义1:设置一个初步机器翻译系统,称为Machine Translation,即MT系统;
定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料都假设有N句;
定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文假设有M句;所述多源神经网络自动译后编辑方法,包括训练模块的训练过程及解码模块的解码过程两部分;
其中,训练过程完成对基于拼接再混合的多源神经网络自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
训练模块的训练过程,具体为:
步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经MT系统进行初步翻译,得出初步翻译结果语料;
其中,各语料主要包括训练原文语料和参考译文语料;
其中,训练原文语料和参考译文语料为双语平行语料;
训练原文语料,记为:{source1,source2,…,sourceN},
训练译文语料,记为{ref1,ref2,…,refN};
训练原文语料的初步翻译结果语料,记为:
{mt-outs1,mt-outs2,…,mt-outsN};
步骤二、对步骤一的语料进行拼接组合,输出源前译后语料;
源前译后语料,记为:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN},每一句话按照训练原文在前,其对应的初步翻译结果在后的顺序依次进行拼接
步骤三、对步骤一的语料进行拼接组合,输出源后译前语料;
其中,源后译前的语料,记为:
{mt-outsssource1,mt-outssource2,…,mt-outssourceN},每一句话按照训练原文在后,及其对应的初步翻译结果在前的顺序依次进行拼接;
步骤四、对步骤二及步骤三输出的源前译后语料和源后译前语料整体再次进行混合,得出混合语料,作为训练过程的源语料;
其中,混合语料,记为:{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN,mt-outsssource1,mt-outssource2,…,mt-outssourceN},作为训练模块的源语料;
其中,步骤二、步骤三以及步骤四中的拼接与混合过程均为构造多源翻译语料的过程,即是指翻译原文与初步翻译结果共同形成了译后编辑系统的源语料;
步骤五、对步骤一的训练译文语料整体翻倍,生成训练过程的目标语料;
步骤五中,对训练译文语料进行整体翻倍,其输出记为:
{ref1,ref2,…,refN,ref1,ref2,…,refN},作为训练模块的目标语料;
步骤六、用步骤四得到的源语料与步骤五得到的目标语料基于神经网络翻译模型训练所述系统,输出译后编辑系统模型;
至此,从步骤一到步骤六,完成了所述方法中训练模块的训练过程;
步骤七、设置本系统的解码步骤中需要的各语料;
其中,解码步骤中需要的各语料包括翻译原文语料和初步翻译结果语料,初步翻译结果语料由翻译原文语料经MT系统翻译得到;
翻译原文语料,记为:{src1,src2,…,srcM},
初步翻译结果语料,记为:{mt1,mt2,…,mtM};
步骤八、对步骤七的语料进行拼接组合,输出解码过程需要的源前译后语料;
其中,源前译后语料,记为:{srcmt1,srcmt2,…,srcmtM};每一句话按照翻译原文在前,对应的初步翻译结果在后的顺序依次进行拼接;
步骤九、对步骤七的语料进行拼接组合,输出解码过程需要的源后译前语料;
其中,源后译前语料,记为:{mtsrc1,mtsrc2,…,mtsrcM};每一句话按照翻译原文在后,对应的初步翻译结果在前的顺序依次进行拼接;
步骤十、将步骤八和步骤九输出的源前译后语料与源后译前语料两者任选其一,输入到步骤六输出的译后编辑系统模型,输出译后编辑译文;
至此,从步骤八到步骤十,完成了本方法中解码模块的解码过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710491848.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和存储介质
- 下一篇:一种基于拼接的集成式自动译后编辑系统及方法