[发明专利]一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法有效

申请号：	201710491848.2	申请日：	2017-06-26
公开（公告）号：	CN107301173B	公开（公告）日：	2019-10-25
发明（设计）人：	郭宇航;黄河燕;曹倩雯	申请（专利权）人：	北京理工大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	北京理工正阳知识产权代理事务所(普通合伙) 11639	代理人：	鲍文娟
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于拼接混合方式神经网络自动编辑系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法，属于计算机自然语言处理及机器翻译技术领域。包括本系统，又包括训练模块与解码模块；本方法分为训练过程与解码过程。训练系统过程建立在传统的神经网络机器翻译模型基础之上，源语料用将翻译原文与初步翻译结果经过简单的语句拼接及再混合后生成的新语料做替换，目标语料用经过翻倍的参考译文做替换，使初步翻译结果与翻译原文在训练过程中互相辅助，交叉验证。翻译解码过程可直接使用已训练得到的系统，对翻译原文与初步翻译结果经过相应拼接的源语料解码，得到译文在流畅度、准确度以及质量整体上均于未经过此译后编辑方法作用的初步翻译结果。

技术领域

本发明涉及一种基于拼接再混合的多源神经网络译后编辑系统及方法，属于计算机应用、自然语言处理及机器翻译技术领域。

技术背景

近年来，随着全球化浪潮的推进，国际交流日益频繁，各行各业对翻译服务的需求都更加迫切。尽管机器翻译具有更加高效便捷的优势，然而，其译文相对于人工译文仍有不小的差距。因此，对机器翻译结果进行自动化的译后编辑以提高译文质量具有重要实用价值。

神经网络自动译后编辑系统是对传统自动译后编辑的改进，它善于生成流畅度较高的语句，可以改善机器翻译译文的语序问题。现有的神经网络自动译后编辑系统大多单纯将初步翻译结果作为输入的源语言，基本实现了语言流畅度方面的提高，但并不能完全还原翻译原文的信息量，经常出现较为严重的漏译问题，降低了整体的翻译质量。

发明内容

本发明的目的是为了解决现有神经网络译后编辑过程中出现的大量漏译问题，提出一种基于拼接再混合的多源神经网络译后编辑系统及方法。

一种基于拼接再混合的多源神经网络译后编辑系统及方法包括一种基于拼接再混合的多源神经网络译后编辑系统，称为本系统，及一种基于拼接再混合的多源神经网络译后编辑方法，简称为本方法；

其中，多源指译后编辑的输入可以来自于多种不同的源语言，包括机器翻译译文与翻译原文；

本系统能够使得翻译原文与初步翻译结果在译后编辑过程中相互影响，交叉验证，提高翻译忠实度，进而提高译后编辑结果的整体质量；

本系统包括训练模块与解码模块；

各模块的功能如下：