[发明专利]提高神经机器翻译准确度的方法、翻译方法及系统和设备有效
申请号: | 201711123864.2 | 申请日: | 2017-11-14 |
公开(公告)号: | CN107943795B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 张家俊;赵阳;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所;波音(中国)投资有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;王世超 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提高 神经 机器翻译 准确度 方法 翻译 系统 设备 | ||
本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。
技术领域
本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备。
背景技术
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。
神经机器翻译是近些年来出现的最新的机器翻译方法,在翻译质量上,较原有的统计机器翻译方法有了一个显著的提升。相比于之前的统计机器翻译方法,神经机器翻译所需的工程设计更少,翻译效果也更好。当其首次被提出时,便在中等规模的公共基准数据集上就达到了可与统计方法相媲美的准确度。自此以后,研究者已经提出了很多改进神经机器翻译的技术,如今在翻译质量上已经大大超越了统计方法,包括Google翻译和百度翻译在内的诸多业内公司都在近期将自己的翻译系统从基于统计的方法更新为基于神经网络的方法,并广受好评。
然而,机器翻译还远未得到完全解决。神经机器翻译虽然表现卓著,但仍然会做出一些人类翻译者不会做出的重大错误,其中最显著的错误是漏翻和重翻。所谓漏翻,是指机器在翻译源语言时,源语言中的某些单词需要被翻译而被机器错误地漏掉;所谓重翻,是指源语言中的某些单词被错误地多次翻译。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,显著地降低了漏翻和重翻的概率。
本发明的一方面,提出一种提高神经机器翻译准确度的方法,在翻译前对源语言进行预调序;具体包括:
利用双语训练数据训练预调序模型;
利用所述预调序模型,对原始的源语言进行调序,使之接近目标语言的词序;
利用调序过的源语言代替所述原始的源语言,对神经机器翻译模型进行训练。
优选地,在“利用所述预调序模型,对原始的源语言进行调序,使之接近目标语言的词序”之后,在“利用调序过的源语言代替所述原始的源语言,对神经机器翻译模型进行训练”之前还包括:在所述神经机器翻译模型的注意力层中加入位置向量,将基于隐层状态的注意力模型扩展为基于隐层状态和位置向量的混合注意力模型。
优选地,在“在所述神经机器翻译模型的注意力层中加入位置向量,将基于隐层状态的注意力模型扩展为基于隐层状态和位置向量的混合注意力模型”之后,在“利用调序过的源语言代替所述原始的源语言,对神经机器翻译模型进行训练”之前,还包括:在所述神经机器翻译模型的注意力层中加入覆盖度向量,用于衡量源端特定单词是否已经被翻译。
优选地,所述训练预调序模型,采用自动抽取调序规则的方法。
本发明的另一方面,提出一种神经机器翻译方法,采用上面所述的提高神经机器翻译准确度的方法,对现有神经机器翻译方法进行了改进。
本发明的第三方面,提出一种神经机器翻译系统,基于上面所述的神经机器翻译方法。
本发明的第四方面,提出一种存储设备,适于存储多条存储程序,所述程序适于由处理器加载并执行,以实现上面所述的提高神经机器翻译准确度的方法。
本发明的第五方面,提出一种处理设备,包括:处理器和存储器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;波音(中国)投资有限公司,未经中国科学院自动化研究所;波音(中国)投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711123864.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翻译方法及系统
- 下一篇:一种翻译方法和装置、终端、可读存储介质