[发明专利]基于扩展的层次化短语模型的统计机器翻译装置和方法无效
| 申请号: | 201010286534.7 | 申请日: | 2010-09-15 |
| 公开(公告)号: | CN102402503A | 公开(公告)日: | 2012-04-04 |
| 发明(设计)人: | 何中军;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;李春晖 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 扩展 层次 短语 模型 统计 机器翻译 装置 方法 | ||
技术领域
本发明涉及机器翻译领域,更具体地涉及一种基于扩展的层次化短语模型的统计机器翻译装置和方法。
背景技术
基于层次化短语的模型(下面也称为HPB模型)构建于加权的同步上下文无关语法(CFG)之上,其为统计机器翻译提供了一种强大的机制来捕获短、长距离的短语次序调整。其中,它利用两种规则:1)翻译规则,其是从词对齐的双语语料库中学习而来的。翻译规则可以是由词构成的短语规则,或者由词和变量两者构成的层次化规则。在解码期间,短语规则执行词法翻译,而层次化规则既执行词法翻译,又执行短语次序调整;2)粘合规则,其被定义为顺序地结合相邻的短语。
然而,HPB模型的一个缺点是粘合规则仅仅提供短语的顺序结合。具体地说,对于两种语言之间的翻译,经常会遇到短语需要逆序结合的情况。而在HPB模型中,只能通过具体的层次化规则进行短语次序调整。因此,利用现有的HPB模型进行机器翻译时,如果需要逆序结合的短语找不到相应的层次化规则来进行短语次序调整,则只能根据HPB模型中的粘合规则来顺序地结合短语,这样就会造成翻译错误。
有关HPB模型的更多细节可以例如参见David Chiang所著的“A hierarchical phrase-based model for statistical machine translation”,Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,pages 263-270,2005。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举 性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于现有技术的上述情形,本发明的目的是提供一种基于扩展的层次化短语模型(HPB模型)的统计机器翻译装置和方法,其可以解决现有技术问题中的一个或多个。
为了实现上述目的,根据本发明的一个方面,提供了一种基于扩展的HPB模型的统计机器翻译装置,包括:翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。
根据本发明的另一个方面,还提供了一种基于扩展的HPB模型的统计机器翻译方法,包括:从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;规定包括顺序规则和逆序规则的粘合规则;以及利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。
根据本发明的另一个方面,还提供了用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序产品。
根据本发明的另一个方面,还提供了计算机可读介质,其上记录有用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序代码。
根据本发明的上述技术方案,通过规定包括顺序规则和逆序规则的粘合规则,在解码期间以顺序和逆序两种方式进行相邻短语的结合,从而可以有效地提高翻译的准确度。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;
图2示出了用于说明在解码过程中相邻短语之间的结合方式的示意图;
图3示出了根据本发明另一实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010286534.7/2.html,转载请声明来源钻瓜专利网。





