[发明专利]一种统计机器翻译方法和系统无效
| 申请号: | 200810114735.1 | 申请日: | 2008-06-11 |
| 公开(公告)号: | CN101290616A | 公开(公告)日: | 2008-10-22 |
| 发明(设计)人: | 何中军;刘群;林守勋 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 |
| 地址: | 100190北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 统计 机器翻译 方法 系统 | ||
1.一种基于短语的统计机器翻译方法,包括下列步骤:
1)对源语言句进行短语划分,根据所述划分的短语从双语短语表中检索双语短语;
2)检查所述划分的短语与所述双语短语匹配程度,如果完全匹配将所述双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);
3)根据所述双语短语的词语对齐,删除所述双语短语中与所述划分的短语不同的词语,把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语,生成新双语短语,并加入所述候选短语表;
4)根据所述候选短语表翻译所述待翻译源语言句。
2.根据权利要求1所述的方法,其特征在于,所述双语短语包括源语言短语、目标语言短语,源语言短语和目标语言短语内部的词语对齐,短语翻译分数。
3.根据权利要求2所述的方法,其特征在于,所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。
4.根据权利要求3所述的方法,其特征在于,所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。
5.根据权利要求4所述的方法,其特征在于,所述步骤2)的部分匹配是相似度属于(0.3,1)。
6.根据权利要求2所述的方法,其特征在于,所述步骤3)进一步包括以下步骤:
31)比较所述划分的短语和所述双语短语的源语言短语中的词语,记录词语不同的位置;
32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语,形成所述翻译模板;
33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语,并将翻译结果填入所述翻译模板,生成新双语短语,将所述新双语短语加入所述候选短语表。
7.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:
11)对源语言句进行短语划分;
12)根据所述双语短语的源语言短语建立索引,索引项是源语言短语,索引值是双语短语在所述双语短语表中的位置;
13)根据所述划分的短语和所述索引从双语短语表中检索双语短语。
8.根据权利要求2至7中任一项所述的方法,其特征在于,
所述步骤1)对源语言句进行短语划分,列举该句子所有划分;
所述步骤4)根据所述候选短语表翻译所述待翻译源语言句,根据所述候选短语的翻译分数选择翻译结果。
9.根据权利要求2所述的方法,其特征在于,步骤1)的双语短语表通过下列步骤获得:
a)对句子对齐的训练语料库进行词语对齐,得到词语对齐的训练语料库;
b)从所述词语对齐的训练语料库中抽取双语短语形成所述双语短语表。
10.根据权利要求9所述的方法,其特征在于,所述步骤b)包括下列步骤:
b1)从所述词语对齐的训练语料库中抽取双语短语;
b2)计算所述抽取的双语短语的翻译分数,生成所述双语短语表。
11.根据权利要求10所述的方法,其特征在于,所述步骤b2)的翻译分数包括短语翻译概率和词汇化翻译概率。
12.一种统计机器翻译系统,包括:
短语划分装置,其用于对源语言句进行短语划分;
短语检索装置,其用于根据所述划分的短语从双语短语表中检索双语短语;
确定匹配程度装置,其用于检查所述划分的短语与所述双语短语的匹配程度,并记录完全匹配的双语短语;
部分匹配短语翻译装置,其用于翻译与所述双语短语部分匹配的划分的短语,生成新双语短语;
源语言句翻译装置,其用于根据完全匹配的双语短语和/或所述部分匹配短语翻译装置生成的新双语短语翻译所述源语言句。
13.根据权利要求12所述的装置,其特征在于所述部分匹配短语翻译装置进一步包含如下装置:
比较装置,其用于比较所述部分匹配的划分的短语和所述双语短语的源语言短语中的词语,并记录词语不同的位置;
翻译模板生成装置,其用于删除所述双语短语的源语言短语和目标语言短语的所述比较装置记录位置的词语,形成所述翻译模板;
新双语短语生成装置,其用于翻译与双语短语的源语言短语中词语不同的所述部分匹配的划分的短语中的词语,并将翻译结果填入所述翻译模板生成装置生成的翻译模板,生成新双语短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810114735.1/1.html,转载请声明来源钻瓜专利网。





