[发明专利]基于短语的统计机器翻译方法和系统无效
申请号: | 200810214667.6 | 申请日: | 2008-09-01 |
公开(公告)号: | CN101667176A | 公开(公告)日: | 2010-03-10 |
发明(设计)人: | 刘占一;王海峰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 于 静;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 短语 统计 机器翻译 方法 系统 | ||
技术领域
本发明涉及信息处理技术,具体地,涉及基于短语的统计机器翻译方法和系统。
背景技术
机器翻译技术主要分为:基于规则的机器翻译、基于语料库的机器翻译。
在基于语料库的机器翻译中,主要的翻译资源来源于语料库。基于语料库的机器翻译又分为:基于实例的机器翻译、基于统计的机器翻译。在基于统计的机器翻译中,基于短语的统计机器翻译方法是目前最主要的自动翻译方法之一。
基于短语的统计机器翻译方法的基本翻译单元是短语,且所应用的翻译知识是从语料库中的平行双语语料获得的短语表和语言模型,短语表由平行双语语料中互为翻译的双语短语对组成。在此,短语的定义是连续的词片段。
常规的基于短语的统计机器翻译的过程主要包括:首先,对于待翻译的输入句子,使用精确匹配方法搜索短语表,找到与该输入句子对应的、所有完全匹配的双语短语对;然后,基于这些双语短语对以及语言模型,采用统计思想选出该输入句子的目标语言译文片段的组合中得分最高的那一个,作为输入句子的正确目标语言译文。
图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图1所示,该系统10主要包括输入单元11、查找单元12、译文生成单元13、输出单元14、短语表存储单元15以及语言模型存储单元16等。
其中,输入单元11是该系统10与外部的接口,该系统10通过输入单元11从外部获得待翻译的输入句子。
查找单元12进行短语的精确匹配。具体地,其对通过输入单元11获得的待翻译的输入句子,使用精确匹配算法在短语表存储单元15所存储的短语表中查找与该输入句子对应的、完全匹配的双语短语对。
并且,译文生成单元13生成输入句子的正确目标语言译文。具体地,其基于查找单元12所查找的双语短语对以及语言模型存储单元16中所存储的语言模型,利用统计模型选出该输入句子的、可能的目标语言译文中得分最高的那一个,作为该输入句子的正确目标语言译文。
由译文生成单元13生成的该目标语言译文通过输出单元14输出。
图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中,对于输入句子“我觉得她那故事的结尾很激动人心”,图1的系统利用短语的精确匹配技术,在短语表中找到与该输入句子对应的、四个完全匹配的双语短语对:(P1)我觉得<->I found;(P2)她<->her;(P3)那故事的结尾<->the end of the story;(P4)很激动人心<->very exciting。并且,根据这四个双语短语对,系统使用统计模型得到最终的译文“I found her the end ofthe story very exciting”。
从上面可以看出,在常规的基于短语的统计机器翻译系统中,对于待翻译的输入句子,使用精确匹配方法在短语表中搜索完全匹配的双语短语对来得到输入句子的译文。精确匹配方法要求两个待匹配的短语必须完全一致。但是,通常情况下,预先建立的语料库中的平行双语语料都是非常有限的,可能不会覆盖较长的短语。这样,对于待翻译的输入句子中较长的短语,精确匹配方法很难在短语表中找到完全匹配的双语短语对。这样,在翻译过程中,只能将较长的短语切分成几个较短的短语来一一进行匹配。但是,由于较长的短语相对于较短的短语来说包含有更多的上下文信息,所以对于输入句子利用较短的短语的匹配所得到的目标语言译文通常劣于利用较长的短语的匹配所得到的目标语言译文。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种基于短语的统计机器翻译方法和系统,以便能够通过短语的模糊匹配,为输入句子中较长的短语生成高质量的译文,从而基于较长的短语来进行输入句子的翻译,来有效地提高机器翻译系统的译文质量。
根据本发明的一个方面,提供一种基于短语的统计机器翻译方法,包括:在预先设定的短语表中,为输入句子中的短语进行模糊匹配。
根据本发明的另一个方面,提供一种基于短语的统计机器翻译系统,包括:短语模糊匹配单元,用于在预先设定的短语表中,为输入句子中的短语进行模糊匹配。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是常规的基于短语的统计机器翻译系统的方框图;
图2示出了采用图1的系统的机器翻译示例;
图3是根据本发明实施例的基于短语的统计机器翻译方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810214667.6/2.html,转载请声明来源钻瓜专利网。