[发明专利]一种统计机器翻译方法和系统无效

专利信息
申请号: 200810114735.1 申请日: 2008-06-11
公开(公告)号: CN101290616A 公开(公告)日: 2008-10-22
发明(设计)人: 何中军;刘群;林守勋 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/28 分类号: G06F17/28;G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司 代理人: 王勇
地址: 100190北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 统计 机器翻译 方法 系统
【说明书】:

技术领域

发明涉及机器翻译技术领域,特别涉及一种基于短语的统计机器翻译方法和系统。

背景技术

随着社会的不断进步和经济的飞速发展,国际间的交流和合作日益密切,对不同语种之间的翻译提出了更高的要求。借助于计算机强大的存储和计算能力进行自然语言之间的翻译(又称机器翻译)可以极大地降低翻译成本,提高工作效率。另外,蓬勃发展的互联网络以及多语种的文档资料等为我们提供了大量的平行语料库,为统计机器翻译奠定了深厚的基础。

统计机器翻译是一种基于语料库的翻译方法,其主要思想是对翻译过程构建数学模型,并利用计算机从庞大的双语语料库中自动学习模型参数,最终完成翻译。与传统的基于规则的翻译方法相比,统计机器翻译无需人类专家撰写大量规则,其翻译知识可以全自动的从双语语料库中获取;统计机器翻译具有语言无关性的特点,一个统计机器翻译系统可以翻译多种语言对,而无需做大量的改动,而基于规则的方法需要针对特定的语言对撰写特定的翻译规则。由于以上特点,统计机器翻译系统开发周期短,翻译质量好,是目前被广泛使用的翻译方法。

由于统计机器翻译系统需要从双语平行语料库中学习翻译知识,因此,对于双语语料库的数量和质量要求都比较高。理论上来说,只要有足够多并且足够好的双语语料,统计机器翻译系统就能够输出高质量的译文。然而,在实践中,这样的条件往往很难达到。一方面,有些语言对本身存在的双语语料就比较少,例如蒙古语-汉语,这样训练出来的模型就面临很严重的数据稀疏问题;另一方面,在具体的应用中,对于计算资源会有比较多的限制,例如在手机或者掌上电脑中,其内存和硬盘空间非常有限,限制了统计机器翻译系统的知识库。

目前,在统计机器翻译领域,基于短语的统计机器翻译方法表现出了很好的性能,其中短语是指连续的词语串。该方法的翻译知识是从双语平行语料库中自动学习的双语短语,称之为双语短语表。利用双语短语表,翻译系统能够很好的翻译固定搭配、习惯用语,输出准确度和流利度都很高的译文。在翻译过程中,对于一个具体的短语翻译,普遍采用的方法是完全匹配策略,即如果它和短语表中的某个短语完全一样,那么就能够找到该短语的翻译,否则,即便是只有一个词语不一样,也不能翻译该短语。这就是所谓的数据稀疏问题。当双语语料库规模受限时,数据稀疏问题尤为严重。

因此,如何有效的利用有限的双语语料资源,减轻实际应用中的数据稀疏问题,提高翻译的质量,是一个亟待解决的问题。

发明内容

本发明的目的在于克服现有的利用短语进行翻译的统计机器翻译系统在双语语料库受限时面临的数据稀疏问题,提供一种基于短语的统计机器翻译方法和系统,从而使统计机器翻译系统在双语语料库受限时能够输出高质量的译文。

为了实现上述目的,根据本发明的一个方面,本发明提供了一种基于短语相似度的统计机器翻译方法,包括以下步骤:

1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;

2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);

3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;

4)根据所述候选短语表翻译所述待翻译源语言句。

根据本发明的第二方面,所述双语短语包括源语言短语、目标语言短语,源语言短语和目标语言短语内部的词语对齐,短语翻译分数。

根据本发明的第三方面,所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。

其中,所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。

其中,优选的,所述步骤2)的部分匹配是相似度属于(0.3,1)。

根据本发明的第四方面,所述步骤3)进一步包括以下步骤:

31)比较所述划分的短语和所述双语短语的源语言短语中的词语,记录词语不同的位置;

32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语,形成所述翻译模板;

33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语,并将翻译结果填入所述翻译模板,生成新双语短语,将所述新双语短语加入所述候选短语表。

根据本发明的第五方面,所述步骤1)进一步包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810114735.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top