[发明专利]一种语言文本翻译方法及系统有效

专利信息
申请号: 201710335652.4 申请日: 2017-05-12
公开(公告)号: CN107273363B 公开(公告)日: 2019-11-22
发明(设计)人: 刘洋;张嘉成;孙茂松;栾焕博;许静芳 申请(专利权)人: 清华大学;北京搜狗科技发展有限公司
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 11002 北京路浩知识产权代理有限公司 代理人: 王莹<国际申请>=<国际公布>=<进入国
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语言 文本 翻译 方法 系统
【说明书】:

发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。

技术领域

本发明涉及机器翻译技术领域,特别涉及一种语言文本翻译方法及系统。

背景技术

随着国际化的进行,不同语言人群之间的交流与日俱增,翻译成为了交流中至关重要的工具。机器翻译因为便捷简单并且免费等优点,极大地满足了人们的翻译需求,提高了国际交流的效率,使得人们对机器翻译的正确性提出了更高的要求。

机器翻译大致可以分为:基于规则的机器翻译方法与基于语料库的机器翻译。基于语料库的机器翻译,它的一个关键问题就在于建立一个完整的语料库,也可称为高质量的训练样本。高质量的训练样本直接影响翻译的正确率。然而,建立高质量的训练样本并不是一件容易的事情,原因在于样本数据是有限的,不能很好地刻画原始数据的分布;另外,即使样本数据足够,也不能避免其中存在错误样本,即噪声数据。基于该训练样本得到的神经网络难以准备体现原模型,甚至会出现违反先验知识的情况。在这种情况下,先验知识的引入就变得十分重要。对翻译规则而言,例如,“不应重复翻译,也不应漏翻”,这样的规则就可称为先验知识。许多研究表明,在神经网络模型中融入先验知识以对其约束,可以提高神经网络的性能。

基于注意力机制的神经网络的机器翻译方法(Attention-based Neural MachineTranslation;简称Attention-based NMT)是基于语料库的机器翻译的一个分支,也是目前主流翻译系统所使用的一种机器翻译方法。其基本思想为使用一个端到端的非线性神经网络直接将源语言文本映射成目标语言文本,即构建一个“编码-解码”的新框架:给定一个源语言句子,首先使用一个编码器将其映射为一个连续、稠密的向量,然后再使用一个解码器将该向量转化为一个目标语言句子。但是,这种方法很难将先验知识融入到神经网络之中。

目前也有一些将先验知识融入到神经网络中的技术。例如,一些技术将先验知识用额外的神经网络模块表示;一些技术通过在训练目标中添加限制项以融入先验知识。虽然这些技术可以显著地提升翻译效果,但是前者要求不同先验知识之间的相关性也需要被建模,后者只能够添加少量简单的限制项。这些问题导致这些技术不能被应用于将任意、复杂的先验知识融入神经网络机器翻译模型。

因此,如何提供一种可以将任意先验知识融入神经网络机器翻译模型的翻译方法是一个亟需解决的问题。

发明内容

为解决现有技术存在的无法将任意先验知识融入神经网络翻译模型的问题,本发明提供一种语言文本翻译方法及系统。

一方面,本发明提供一种语言文本翻译方法,该方法包括:

根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;

基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;

基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。

另一方面,本发明提供一种语言文本翻译系统,该系统包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710335652.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top