[发明专利]一种机器翻译中翻译单元表的抽取方法有效

专利信息
申请号: 201310439927.0 申请日: 2013-09-24
公开(公告)号: CN103488629A 公开(公告)日: 2014-01-01
发明(设计)人: 黄书剑;孙辉丰;戴新宇;陈家骏 申请(专利权)人: 南京大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 机器翻译 翻译 单元 抽取 方法
【说明书】:

技术领域

本发明涉及一种计算机统计机器翻译和并行计算领域,特别是一种分布式抽取短语、层次短语表及词汇化调序模型的方法。

背景技术

统计机器翻译自上世纪90年代以来发展十分迅速,取得了很大的进步,逐渐成为机器翻译领域中的研究热点。相对于基于规则的机器翻译系统,统计方法的最大优点在于无需人工编写规则,可以利用语料库直接通过训练得到机器翻译系统。而基于短语或层次短语的统计机器翻译系统可以更好地把握局部上下文的依赖关系,在性能上优于基于词的统计机器翻译方法;相对于基于句法的统计机器翻译,又具有很好的通用性,且搜索空间比较小。

基于短语和层次短语的统计机器翻译系统的工作过程如下:输入待翻译的句子S,将之切分为n个短语,即S=s1,s2,……sn,接着将每个源短语si翻译成目标语言短语ti,生成目标语言句子T=t1,t2,……tn。最后在所有可能的候选翻译中找出概率最高的句子。而短语表、层次短语表和词汇化调序模型在基于短语和层次短语的统计机器翻译系统中扮演重要角色,其中短语表和层次短语表可以用来在翻译过程中找出翻译概率最大的目标短语;而词汇化调序模型则可以用来调整翻译结果中短语的次序,使得翻译结果更符合人们的习惯。在现有的发明技术中,如中科院计算所2009年申请的《统计机器翻译短语抽取方法》专利中,着重于抽取和计算概率的算法,没有提到如何实现本项工作,如果采用集中式抽取方法进行三个文件的抽取,即利用一台计算机独立完成工作,随着训练语料规模的不断增加,程序的时间消耗越来越大,而且每当试验一种新的词对齐方式都要重新抽取这些翻译规则,这样一来更是凸显了集中式抽取方法在效率上的不足,因此需要寻求更快抽取这些翻译规则的方法。

Hadoop是由Apache基金会开发的一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群进行高速运算和存储。Hadoop为大数据处理工作提供了优秀的数据存储与运算平台,对于大规模训练语料下抽取短语、层次短语表和调序规则的工作,可以通过编写hadoop分布式程序,充分利用多台计算结点来完成该项工作,从而缩短工作时间,提高效率。

发明内容

发明目的:本发明所要解决的技术问题是针对集中式抽取方法在效率上的不足,提出一种机器翻译中翻译单元表的抽取方法。

为了解决上述技术问题,本发明公开了一种机器翻译中翻译单元表的抽取方法,该方法的所有步骤均运行于Hadoop并行计算平台上,利用Hadoop并行计算平台分别抽取短语表、层次短语表以及词汇化调序模型。

所述抽取短语表包括如下步骤:

步骤11,输入双语对齐语料和对应的词对齐文件,对于双语对齐语料中每一对双语对齐句对,根据词对齐文件中的词对齐信息,首先抽取出所有的对齐短语对并记录其词对齐信息和一次出现次数;接着对相同对齐短语对进行合并,即将出现次数相加,并保存出现次数最多的词对齐信息;抽取出的对齐短语对满足词对齐上的相容性,即在原有句子的短语对中一端映射到另一端上的范围不能超过该端短语的覆盖范围;

步骤12,以步骤11的结果作为输入,采用Good-Turing平滑方法进行平滑处理,统计(c,nc)对,其中c是单个短语对的出现次数,nc是所有短语对中出现次数为c的短语对的个数。也可以采用Kneser-Ney和Modified Kneser-Ney平滑方法(参阅An empirical study of smoothing techniques for language modeling,1 999,Computer Speech and Language,13:359-394)。

步骤13,以步骤11和步骤12的结果作为输入,计算对齐短语对的正向和反向的相对频率即短语互翻译概率,以及词汇化翻译概率,得到短语表。

本发明步骤12包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310439927.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top