[发明专利]一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法有效
申请号: | 201710491848.2 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107301173B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 郭宇航;黄河燕;曹倩雯 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼接 混合 方式 神经网络 自动 编辑 系统 方法 | ||
本发明公开了一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法,属于计算机自然语言处理及机器翻译技术领域。包括本系统,又包括训练模块与解码模块;本方法分为训练过程与解码过程。训练系统过程建立在传统的神经网络机器翻译模型基础之上,源语料用将翻译原文与初步翻译结果经过简单的语句拼接及再混合后生成的新语料做替换,目标语料用经过翻倍的参考译文做替换,使初步翻译结果与翻译原文在训练过程中互相辅助,交叉验证。翻译解码过程可直接使用已训练得到的系统,对翻译原文与初步翻译结果经过相应拼接的源语料解码,得到译文在流畅度、准确度以及质量整体上均于未经过此译后编辑方法作用的初步翻译结果。
技术领域
本发明涉及一种基于拼接再混合的多源神经网络译后编辑系统及方法,属于计算机应用、自然语言处理及机器翻译技术领域。
技术背景
近年来,随着全球化浪潮的推进,国际交流日益频繁,各行各业对翻译服务的需求都更加迫切。尽管机器翻译具有更加高效便捷的优势,然而,其译文相对于人工译文仍有不小的差距。因此,对机器翻译结果进行自动化的译后编辑以提高译文质量具有重要实用价值。
神经网络自动译后编辑系统是对传统自动译后编辑的改进,它善于生成流畅度较高的语句,可以改善机器翻译译文的语序问题。现有的神经网络自动译后编辑系统大多单纯将初步翻译结果作为输入的源语言,基本实现了语言流畅度方面的提高,但并不能完全还原翻译原文的信息量,经常出现较为严重的漏译问题,降低了整体的翻译质量。
发明内容
本发明的目的是为了解决现有神经网络译后编辑过程中出现的大量漏译问题,提出一种基于拼接再混合的多源神经网络译后编辑系统及方法。
一种基于拼接再混合的多源神经网络译后编辑系统及方法包括一种基于拼接再混合的多源神经网络译后编辑系统,称为本系统,及一种基于拼接再混合的多源神经网络译后编辑方法,简称为本方法;
其中,多源指译后编辑的输入可以来自于多种不同的源语言,包括机器翻译译文与翻译原文;
本系统能够使得翻译原文与初步翻译结果在译后编辑过程中相互影响,交叉验证,提高翻译忠实度,进而提高译后编辑结果的整体质量;
本系统包括训练模块与解码模块;
各模块的功能如下:
训练模块的功能是训练基于拼接再混合方式的多源神经网络自动译后编辑系统,输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连。
为实现上述目的,本发明所采用的技术方案如下:
定义1:设置一个初步机器翻译系统,称为Machine Translation,即MT系统;
定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料都假设有N句;
定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文假设有M句;
在上述定义的基础之上,本方法包括训练模块的训练过程及解码模块的解码过程两部分,其中训练模块完成对基于拼接再混合方式的多源神经网络自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
训练模块的训练过程,具体为:
步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经MT系统进行初步翻译,得出初步翻译结果语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710491848.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和存储介质
- 下一篇:一种基于拼接的集成式自动译后编辑系统及方法