[发明专利]基于树到树翻译模型的翻译规则抽取方法和翻译方法无效
| 申请号: | 200910090202.9 | 申请日: | 2009-07-31 |
| 公开(公告)号: | CN101989257A | 公开(公告)日: | 2011-03-23 |
| 发明(设计)人: | 刘洋;吕亚娟;刘群;熊皓 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 树到树 翻译 模型 规则 抽取 方法 | ||
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种语言翻译规则抽取方法和翻译方法。
背景技术
基于句法的翻译模型已经逐渐成为统计机器翻译的主流模型,根据是否在源语言端和目标语言端建立句法树,基于句法的翻译模型可以分为以下三类:1)树到串翻译模型,例如刘洋(Yang Liu)等人于2006年在第四十四届计算语言学年会(ACL 2006)上所公开的;2)串到树翻译模型,马库等人在2006年基于经验主义方法的自然语言处理会议(EMNLP 2006)上所公开的;3)树到树翻译模型,例如艾斯勒等人于2003年在第四十一届计算语言学年会上所公开的。
现有的树到树的翻译模型由于在源语言端和目标语言端分别建立唯一的一棵句法树。句法树的质量很大程度上决定了最终翻译的结果。当句法分析不准确时,最优句法分析结果可能是错误的,因此将对后面的解码准确率造成影响。而现有的句法分析技术准确率并不高,英语只能达到91%,而汉语仅能达到85%左右。
另外,现有的树到树模型的翻译规则都是从对齐的双语句法树中抽取出来的,其中,对齐的双语句法树由一棵源语言句法树和对应的一棵目标语言句法树共同构成。在这种情况下,能抽取的规则数量十分有限,通常一对句法树只能抽取出几十条规则。
所以,现有的基于树到树的翻译模型的翻译质量不够理想。
发明内容
为解决上述技术问题,本发明提供一种翻译质量较高的基于树到树翻译模型的翻译方法。
为实现上述目的,根据本发明的一个方面,提供了一种一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤:
1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;
2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。
该翻译规则抽取方法中,所述步骤2)进一步包括:
获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合;
获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点,并获取关于所述对应节点的第二前沿树集合,根据所述第一前沿树集合和所述第二前沿树集合构造前沿树对集合;
在所述前沿树对集合中抽取最小前沿树对,并根据所述最小前沿树对构建翻译规则。
该翻译规则抽取方法中,
所述步骤2)包括:将所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林进行缩减,根据缩减后的训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林抽取翻译规则。
根据本发明的另一方面,还提供了一种根据翻译规则抽取方法所抽取的翻译规则基于树到树翻译模型的翻译方法,包括下列步骤:
3)、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林;
4)、根据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。
在该翻译方法中,
所述步骤4)包括:对所述测试语料的源语言压缩共享句法森林进行缩减,根据所述翻译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。
本发明的优点在于,有效提高了句法分析准确率;另外,还增加了可用的翻译规则,扩大了搜索空间;从而有效提高了翻译质量。
附图说明
图1是根据本发明一个具体实施例的基于树到树机器翻译模型的翻译方法的流程图;
图2是根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示意图;
图3(a)是根据本发明一个具体实施例的前沿树示意图;
图3(b)是根据本发明一个具体实施例的最小前沿树示意图;
图3(c)是根据本发明一个具体实施例的前沿树对示意图;
图3(d)是根据本发明一个具体实施例的最小前沿树对示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的基于树到树翻译模型的翻译规则抽取方法和翻译方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910090202.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高频RFID标签电路及芯片
- 下一篇:飞机天线仿真盒及其使用方法





