[发明专利]一种汉英短语翻译对自动抽取与过滤方法有效
申请号: | 200810055782.3 | 申请日: | 2008-01-09 |
公开(公告)号: | CN101482860A | 公开(公告)日: | 2009-07-15 |
发明(设计)人: | 宗成庆;周玉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 梁爱荣 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉英 短语 翻译 自动 抽取 过滤 方法 | ||
技术领域
本发明属于自然语言处理领域,特别涉及统计机器翻译、跨语言信息检索和双语短语自动抽取与过滤的方法。
背景技术
随着全球化信息时代的到来,如何克服语言障碍显得越来越严重,利用计算机实现不同语言之间的自动翻译,成为全人类面临的共同问题。目前在机器翻译研究中统计方法占据着主导地位,而统计方法中又以基于短语的翻译模型较为成熟。基于短语统计机器翻译方法的基本思想就是以短语作为翻译的基本单元。因为短语内部隐含了译文词语的选择和词序的调整信息,所以能够较好的解决局部上下文依赖问题,在近期的机器翻译评测中基于短语的翻译模型屡次获得领先成绩,这标志着该模型已成为统计机器翻译的主流。无疑短语抽取是基于短语的翻译系统最核心的模块,短语对质量的好坏决定了最后机器翻译质量。
目前国际上现有的短语抽取方法很多,最成熟流行的方法就是奥赫(Och)的抽取方法以及后来蒋伟(David Chiang)在奥赫(Och)思想上的提出的改进分层短语方法,该方法简单可行,仅仅只需要利用词对齐,所以后来得到了广泛的应用,也取得了不错的效果。但是,无论是奥赫的方法还是蒋伟的方法都只能抽取出与词对齐完全相容的源短语和目标短语。实际上,要求短语对完全与词对齐相容的抽取条件过于苛刻,而且会导致词对齐错误的蔓延。而且该方法存在的另一个很棘手的问题就是随着语料规模的扩大,抽取的短语对会剧增,这样无疑为后面的解码带来太大的负担,而且本身短语的存储空间太大也是一个问题。所以,短语的过滤成了一个亟需解决的问题,目前的方法也就是通过引入句法知识来对其进行一定的约束从而控制其数量的暴增。而我们很清楚的知道,首先句法树生成本身的正确率就是个问题,其次句法树的约束过于严格从而无法满足召回率的要求,所以在绝大多数句法系统中,实际上保留了所有的短语对,仅仅利用句法知识来提供重排序(reordering)的信息。
发明内容
为了解决现有技术处理上述短语抽取存在的问题,本发明提出一种简单有效的汉英短语翻译对自动抽取与过滤方法。本发明的目的是通过对当前汉英句对进行语块划分,通过语块内部的短语抽取来取代现有方法的整句短语抽取,从而抑制现有方法无限制扩展空词的弱点,并且该发明能够根据当前句对的词对齐生成多层次短语,打破传统的根据固定词对齐只可能生成该种词对齐下固定模式的一种短语对,同时本发明不需要利用句法知识来对生成的短语对进行过滤,而是利用简单的单语候选短语出现频率来进行启发过滤。
为了实现所述的目的,本发明提供的汉英短语翻译对自动抽取与过滤方法,其自动抽取与过滤的步骤包括:
步骤1:对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;
步骤2:根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;
步骤3:利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;
步骤4:利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤,生成需要的短语对;
根据本发明的实施例,步骤1所述提取多个划分语块的特征,是两个相邻单语单词间的互信息特征、双语单词间的互信息特征、t-检验(t-test)特征、χ2检验特征、Dice系数特征;并提取过滤候选短语的特征,这些特征是单语候选短语本身包含信息的出现频率特征,或是双语候选短语本身包含信息的联合出现概率;这些特征包括:单语候选短语的出现频率特征,双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征。
根据本发明的实施例,步骤2所述确定划分锚点信息的步骤包括:
步骤21:分别利用相邻两个汉语或英语单词之间的互信息来分别对汉、英句子进行单语语块的划分;相邻单词间的互信息比较了这两个单词的联合概率与这两个单词的独立概率:
如果两个单词间存在较强的邻接关系,其联合概率将远远大于独立概率,从而互信息远远大于0;
如果不存在较强的邻接这种关系,则两个单词的联合概率和两个单词的独立概率基本相等,即互信息约等于0;
如果以互补出现,则互信息远远小于0,利用两个单词之间的互信息在一定程度上反映这两个单词的联系紧密性,选择相邻词的互信息来作为划分锚点的依据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810055782.3/2.html,转载请声明来源钻瓜专利网。