[发明专利]翻译模板确定、机器翻译方法及装置在审
| 申请号: | 201610506589.1 | 申请日: | 2016-06-30 |
| 公开(公告)号: | CN107562734A | 公开(公告)日: | 2018-01-09 |
| 发明(设计)人: | 史黎鑫;张海波;卞华明;管陶然;刘禹;赵宇;骆卫华;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 翻译 模板 确定 机器翻译 方法 装置 | ||
技术领域
本申请涉及机器翻译技术领域,尤其涉及一种翻译模板确定方法及装置,以及一种机器翻译方法及装置。
背景技术
机器翻译,又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。统计机器翻译系统,具有很强的泛化能力,通过对大规模平行数据进行自动学习,可以翻译任何句子,但是对于翻译结果的质量往往无法保证。为了有效利用已有的质量较好的平行句对,便有了翻译记忆的方法。所述翻译记忆,又称为翻译内存,(Translation Memory,TM),是计算机辅助翻译技术之一,是一种用于存储原文本及其译文的语言数据库。而传统的翻译记忆通常用于计算机辅助翻译(Computer aided translation,CAT)中,目前常见的手段是对翻译实例进行模板库和术语库构建,通过对翻译实例库、术语库、模板库的综合应用,最大限度的利用已有双语平行语料来获取较高质量的翻译结果。其中,通过对翻译实例进行抽象从而获取翻译模板的过程,是翻译记忆系统中非常重要的模块。所述翻译实例,可以是预设的训练语句,即一句话。所谓翻译模板,是保持句子整体框架不变,根据语法、语用等限制来改变框架中的内容,进而识别和生成句子的一种翻译实例对,是对句子在一定程度上的抽象。其中,所述语用是指语言在具体情境下的运用,所述的语法、语用等限制是指在翻译模板构建过程中应用到的一些语言规则,这些规则通常描述一些句法、语义、语用等相关的知识。
通常单语模板是包括常量和变量所组成的序列。其中,具体的词汇短语等为常量,变量表示可进行抽象泛化的一类词汇短语。例如,对于模板“I likeeating$x1.”,其中的“I like eating”和“.”就是模板中的常量,对于每一个匹配到该模板的句子,常量部分都是相同的;而“$x1”为模板中的变量,对于匹配该模板的不同句子,变量部分可以是不同的,如“I like eating apple.”和“I like eating orange.”这里的“apple”和“orange”对应的都是模板的变量部分。由此可见,翻译模板库中的单语模板由常量和变量两部分组成。其中,常量为一个模板中固定不变的部分,而变量部分通常还会包含一些条件限制,这些条件是翻译过程中对应到该处变量的短语所必须满足的。翻译模板需要足够抽象,使其具有一定的覆盖度,但又不能太过抽象,以便使翻译具有准确性。因此,翻译模板的抽取方法直接影响了翻译记忆系统的效果。
现有技术中翻译模板的提取方法主要包括两个思路:一、根据翻译实例自身或相互间的结构、语义等信息,不依赖其他信息,通过设计相应算法,实现翻译模板的自动提取过程;二、基于已获取的高质量短语片段,即预设的短语集合,对翻译实例进行部分泛化,从而实现翻译模板的自动提取过程。其中,基于已获取的高质量短语来抽取模板的方法,首先需要从数据集获取高质量的短语片段,通常以名词性短语等具有独立意义的短语片段为主。在获取高质量的短语片段基础上,通过对数据集中翻译实例进行比对泛化,从而获得相应的翻译模板。常见的基于高质量短语进行模板抽取的方法和基于词典进行分词的方法类似,主要包括正向最大匹配、逆向最大匹配等方法。
正向最大匹配算法即从句子左侧开始逐个短语与预设短语集合中的短语进行匹配,如果当前短语在短语集合中,则从当前句子中将匹配短语替换为变量部分,即所谓的泛化,直至整个句子遍历结束。例如,对于翻译实例“我们在野生动物园玩”,假设定义的最大短语长度max=5,即短语最多包含5个单词。则采用正向最大匹配算法对该翻译实例进行翻译模板抽取的过程如下:
步骤一、正向开始对句子进行逐字遍历,例如,“我、我们、野生动物园”组成包含三个短语的一个短语集合。首先判断短语集合中是否包括以“我”开头的短语,不包括则向右移动一个字并进行判断,包括则进行下一步操作;
步骤二、定义短语长度len=max,从当前位置开始向右取出长度为len的片段seg="我们在野生",并在短语集合中匹配seg;
步骤三、若短语集合中没有该片段,则len值减1,并重新获取seg片段;
步骤四、重复步骤二,直到在短语集合中找到seg片段,退出循环;
步骤五、在翻译实例中将当前seg片段替换为变量标记,并向右移动长度为len个字,重新进行步骤一,直至翻译实例遍历结束。其中的len为当前seg片段的len的当前值,也是当前匹配的seg片段的长度,在步骤三中,如果对于当前len值没有匹配到seg片段,则len值减1,所以当匹配到seg片段时,len的当前值和所匹配到的seg片段的长度是一致的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610506589.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种即时消息翻译方法和系统以及一种电子设备
- 下一篇:一种大数据存储系统





