[发明专利]基于最长名词短语分治策略的神经机器翻译方法在审
申请号: | 201710876251.X | 申请日: | 2017-09-25 |
公开(公告)号: | CN107861952A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 叶娜;张学强 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙)21234 | 代理人: | 李晓光 |
地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最长 名词 短语 分治 策略 神经 机器翻译 方法 | ||
技术领域
本发明涉及一种自然语言翻译技术,具体为一种基于最长名词短语分治策略的神经机器翻译方法。
背景技术
端到端神经机器翻译作为一种全新的机器翻译方法,近年来获得了迅速发展。然而,端到端神经机器翻译仅仅使用一个非线性的神经网络实现自然语言之间的转换,相比于统计机器翻译,译文质量对句子长度更为敏感。如何在神经机器翻译中将一个句子在尽量不损失语义信息的前提下,进行长度上的缩减和结构上的简化是一个值得探究的方向。
研究人员将现有的方法和策略引入端到端的神经网络,以实现翻译性能的提升。Ilya Sutskever等人将长短期记忆引入神经机器翻译,以缓解递归神经网络训练时“梯度消失”的问题,并且在“编码-解码”框架两端同时采用递归神经网络。针对准确实现编码问题,Yoshua Bengio提出了基于注意力的端到端神经机器翻译。解码器在生成目标词yi时,动态地注意源语言句子中与之相关的上下文,而不再关注整个源语言句子。图1和图2分别给出了Sutskever等人提出的神经机器翻译模型和Bengio给出的基于注意力的神经机器翻译模型。
尽管长短期记忆和注意力机制的引入能够更好的处理词语之间的长距离依存关系,从而提升端到端神经机器翻译的性能。然而,自然语言中的句子长短不一、结构复杂,通过单一神经网络学习翻译知识的方法受到限制。如何利用语言学知识结合分治策略对句子的各部分进行分治与整合,是一个值得研究的问题。
发明内容
针对现有技术中神经机器翻系统在长句子翻译任务上的不足,本发明要解决的问题是提供一种可提升译文整体质量的基于最长名词短语分治策略的神经机器翻译方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于最长名词短语分治策略的神经机器翻译方法,基于“抽取-翻译-重组”的最长名词短语处理框架,包括以下步骤:
1)抽取:对句子中长度不小于2个词的MNP进行抽取,对句子进行短语结构句法分析;
2)翻译:采用双语MNP扩展后的平行语料训练得到神经机器翻译模型,分别短语结构句法分析识别出的MNP,以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译,得到MNP译文;
3)重组:将句中的原有框架和MNP译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。
步骤1)中,通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取,采用“MNPi”(i=1,2,……)作为句子框架中的标识,保留MNP和特殊标识“MNPi”的对齐关系。
步骤1)中,将MNP核心词保留在句子框架中,训练词对齐信息,以作为词表实现从句子框架译文中定位MNP核心词的位置。
步骤3)中,根据MNP抽取时保留的标识不同,重组过程中采用不同方法,当通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取时,使用第i个MNP译文替换句子框架译文中的标识“MNPi”。
当将MNP核心词保留在句子框架中时,通过事先训练好的词对齐信息查找MNP核心词的可能译文,当译文出现在句子框架译文中时,对其进行替换。
本发明具有以下有益效果及优点:
1.本发明提出一种基于MNP分治策略的神经机器翻译方法,该方法主要基于一个“抽取-翻译-重组”的MNP处理框架,旨在将MNP独立处理带来更高质量的MNP和句子框架译文的优势,与神经机器翻译学习能力强、译文具有较高准确度和流畅度等优势相结合,从而达到提升译文整体质量的目的。
2.实验结果表明,本发明在译文BLEU分值上都获得了一定的提升,相比于基线系统,保留特殊标识“MNPi”的方法BLEU提升了0.36个百分点,保留MNP核心词的方法BLEU提升了0.89个百分点。
附图说明
图1为现有技术中端到端神经机器翻译模型图示;
图2为现有技术中基于注意力的神经机器翻译模型图示;
图3为本发明中神经机器翻译系统的“抽取-翻译-重组”过程图示;
图4为本发明中神经机器翻译模型对MNP及句子框架的“分治”翻译流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710876251.X/2.html,转载请声明来源钻瓜专利网。