[发明专利]非自回归神经机器翻译方法、装置、计算机设备和介质有效
申请号: | 201911083628.1 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110852116B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 冉邱;林衍凯;李鹏;周杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N20/00 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 汪阮磊 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回归 神经 机器翻译 方法 装置 计算机 设备 介质 | ||
本申请实施例公开了一种非自回归神经机器翻译方法、装置、计算机设备和介质;可以获取源语言的源句子、以及所述源句子中词对应的词向量;对所述词对应的词向量进行编码,得到关注上下文信息的编码向量;根据所述源句子确定待翻译句子,所述待翻译句子包括待翻译词;根据所述待翻译词对应的词向量、以及所述编码向量,将待翻译句子中的待翻译词按照目标语言的结构进行重排序,得到伪翻译句子;根据所述伪翻译句子中待翻译词对应的词向量、以及所述编码向量,将所述伪翻译句子翻译成所述目标语言的目标句子;输出所述目标句子。该方案可以提升翻译质量。
技术领域
本申请涉及人工智能技术领域,具体涉及一种非自回归神经机器翻译方法、装置、计算机设备和介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
目前常用的翻译方案都是基于人工智能中的非自回归神经机器翻译(NAT,Non-autoregressive neural machine translation);比如,将待翻译句子输入值NAT模型,通过待翻译句子中拷贝至NAT模型的解码器输入处,通过解码器预测待翻译句子中所有词的译文,得到最终翻译结果。
然而,目前基于NAT技术翻译的翻译质量对比自回归NMT(Neural MachineTranslation,神经机器翻译)技术仍有一定差距,目前多数NAT技术在解码时存在搜索空间大的问题,即NAT模型在预测当前词时需要推断周围的词来确定当前词应该翻译源句子的哪个部分,还要确定该部分应该翻译成哪个正确的词。因此,翻译质量较低。
发明内容
本申请实施例提供一种非自回归神经机器翻译方法、装置、计算机设备和介质,可以提升翻译质量。
本申请实施例提供一种非自回归神经机器翻译方法,该方法包括:
获取源语言的源句子、以及所述源句子中词对应的词向量;
对所述词对应的词向量进行编码,得到关注上下文信息的编码向量;
根据所述源句子确定待翻译句子,所述待翻译句子包括待翻译词;
根据所述待翻译词对应的词向量、以及所述编码向量,将待翻译句子中的待翻译词按照目标语言的结构进行重排序,得到伪翻译句子;
根据所述伪翻译句子中待翻译词对应的词向量、以及所述编码向量,将所述伪翻译句子翻译成所述目标语言的目标句子;
输出所述目标句子。
本申请实施例还提供一种非自回归神经机器翻译装置,该装置包括:
获取单元,用于获取源语言的源句子、以及所述源句子中词对应的词向量;
编码单元,用于对所述词对应的词向量进行编码,得到关注上下文信息的编码向量;
确定单元,用于根据所述源句子确定待翻译句子,所述待翻译句子包括待翻译词;
排序单元,用于根据所述待翻译词对应的词向量、以及所述编码向量,将待翻译句子中的待翻译词按照目标语言的结构进行重排序,得到伪翻译句子;
翻译单元,用于根据所述伪翻译句子中待翻译词对应的词向量、以及所述编码向量,将所述伪翻译句子翻译成所述目标语言的目标句子;
输出单元,用于输出所述目标句子。
在一实施例中,所述排序单元,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911083628.1/2.html,转载请声明来源钻瓜专利网。