[发明专利]基于实例短语的机器翻译方法无效
申请号: | 200910002334.1 | 申请日: | 2009-01-07 |
公开(公告)号: | CN101770458A | 公开(公告)日: | 2010-07-07 |
发明(设计)人: | 何亮;万磊;王进 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 韩明星;邱玲 |
地址: | 210008 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实例 短语 机器翻译 方法 | ||
技术领域
本发明涉及机器翻译领域,具体来说是基于语料库的机器翻译,描述的是一种利用实例短语进行翻译的方法。
背景技术
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。机器翻译系统的类型很多,包括基于实例的机器翻译(EBMT)系统和基于短语的机器翻译(PBMT)系统。
EBMT系统的基本思想是不通过深层的句子结构和语义的分析,仅仅通过已有的经验知识,通过类比原理进行翻译。这一思想的基本实现原理:系统的主要知识源是双语对照的翻译实例库,每当输入一个源语言句子S时,系统找出和S最为相似的句子S′,并模仿S′的译文T′,将S和S′不匹配的地方进行翻译,替换掉T′中对应的部分,最终构成S的译文T然后输出。其特点是只要存在相似度很高甚至一样的例句,就能产生高质量的译文。EBMT方法需要一个很大的实例库作为支撑。
PBMT系统的基本思想是以短语作为翻译的基本单位。在翻译过程中,系统不是孤立地翻译每个词,而是将连续的多个词一起翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。一般地,在基于短语的方法中,短语可以是任意连续的字符串,没有语法上的限制,这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语抽取,也就是抽取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。
然而,EBMT的缺陷在于:如果相似度阈值过高,则匹配成功率低;反之,如果相似度阈值过低,则模糊匹配时产生译文质量较差。要在保证译文质量的前提下提高匹配的成功率,只有建立大规模的实例库,但这需要大量的时间、人力和物力。PBMT的缺陷在于:在对句子进行翻译时,需要考虑所有可能的短语(只要是连续的词串就可以被认作是短语),及这些短语的组合情况,这大大的降低了翻译的速度;同时,对于较长的句子或短语,翻译时需要处理大量的歧义,导致翻译的效果不佳。另外,纯粹的EBMT方法和PBMT方法没有考虑对语料库中没有出现的未知词的处理,尤其是大量的专业词汇。一个处理方法是扩充实例库或者双语对齐语料库,扩大其词汇量的覆盖范围,但一方面实例库和双语对齐语料库的建设需要大量的时间、人力和物力;另一方面,每当有新词汇出现时,扩充语料库之后都需要重新对系统进行训练。
发明内容
根据本发明的一方面,将基于短语的机器翻译方法和基于实例的思想相结合,在对现有的PBMT系统不作修改的前提下,引入基于实例的方法,充分利用已有的短语对齐数据,快速、高质量地对匹配的句子进行翻译的优点,从而达到翻译速度和翻译质量的同步提高;同时,使用一个双语词典,结合利用已有的目标语言的语言模型,对翻译结果中的未知词进行翻译,双语词典的构造难度大大低于双语句对的构造难度,同时只需对词典进行扩充即可翻译新词汇,而现有系统无需重新训练。
根据本发明的一方面,提供了一种基于实例短语的机器翻译方法,所述方法包括:根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。
根据本发明的一方面,所述方法还可包括:利用双语词典和目标语言的语言模型对未知词进行翻译。
根据本发明的一方面,对源语言句子进行切分的步骤所基于的原则是:使得切分后的短语覆盖率最高,其中,覆盖率是指源语言句子中短语被覆盖的总字数除以源语言句子的总字数,覆盖是指切分出的短语存在于短语对齐表中。
根据本发明的一方面,在对源语言句子进行切分的步骤中使得切分后的短语覆盖率最高的前提下,使源语言句子的短语数最少。
根据本发明的一方面,在使切分后的短语覆盖率最高并使源语言句子的短语数最少的前提下,使切分出的短语最长。
根据本发明的一方面,可根据图论中的求两定点之间的最短路径来将源语言句子切分为若干短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910002334.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减少手机无效拨号的方法及装置
- 下一篇:模具