[发明专利]一种基于相似度匹配的枢轴语言翻译方法和装置有效
申请号: | 201310636884.5 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103605644B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 朱聪慧;朱晓宁;赵铁军;郑德权;杨沐昀;曹海龙;徐冰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 哈尔滨市松花江专利商标事务所23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似 匹配 枢轴 语言 翻译 方法 装置 | ||
技术领域
本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。
背景技术
基于统计的机器翻译技术兴起于20世纪90年代,它可以从双语平行语料库中自动提取翻译规则,不需要人工干预,具有广泛的语言适用性,是当前使用最为广泛的机器翻译系统。基于统计的机器翻译系统的翻译质量很大程度上取决于双语平行语料库的质量。语料库的质量越高、数据数量越高,则使用该语料库所获得的统计机器翻译系统的翻译质量越高。但对于大多数语言对都面临着无法获得足够数量的高质量语料的问题。
针对语料稀疏的问题,目前普遍采用的解决方案是引入第三种语言,即枢轴语言。对于枢轴语言的引入,存在着下列两个方面的要求:
第一,源语言与枢轴语言之间存在着大量高质量双语平行语料,满足构建源语言到枢轴语言翻译系统的需要;
第二,枢轴语言与目标语言之间存在着大量高质量双语平行语料,满足构建枢轴语言到目标语言翻译系统的需要。
给定满足上述条件的枢轴语言,如果存在一个源语言到枢轴语的翻译规则(规则1)及一个该枢轴语到目标语的翻译规则(规则2),那么可以构建出一个源语言到目标语的翻译规则。该方法严格要求规则1与规则2中的枢轴语短语完全相同。这会导致一些潜在的源语言到目标语翻译规则丢失。
发明内容
本发明为解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,即规则1和规则2中的枢轴语短语必须完全相同而导致的的潜在翻译规则丢失问题,而提出一种基于相似度匹配的枢轴语言翻译方法和装置。
本发明中一种基于相似度匹配的枢轴语言翻译方法,具体是按照以下步骤进行:
步骤一、建立源语言-目标语翻译规则库,具体包括以下步骤:
步骤一一、建立源语言-枢轴语翻译规则库,在源语言-枢轴语翻译规则库中,将枢轴语短语表示为向量形式;
步骤一二、建立枢轴语-目标语翻译规则库,在枢轴语-目标语翻译规则库中,将枢轴语短语表示为向量形式;
步骤一三、在源语言-枢轴语翻译规则库中查找与源语言短语语义匹配的至少一个第一枢轴语短语的向量表示;
步骤一四、在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有向量相似性的至少一个第二枢轴语短语的向量表示;所述的具有向量相似性的判断依据是指两个向量之间的夹角的余弦值大于0.8。
步骤一五、在枢轴语-目标语翻译规则库中查找与第二枢轴语短语的向量表示匹配的目标语短语;
步骤一六、将各所述源语言短语与目标语短语组成源语言-目标语翻译规则库;
步骤二、根据步骤一中建立的源语言-目标语翻译规则库对源语言进行翻译。
本发明中一种基于相似度匹配的枢轴语言翻译装置,所述装置包括:
一、枢轴语言短语向量表示模块410,用于在源语言-枢轴语翻译规则库中将枢轴语短语表示为向量形式以及在枢轴语-目标语翻译规则库中将枢轴语短语表示为向量形式;
二、枢轴语言短语查找模块420,用于在源语言-枢轴语言翻译规则库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语的向量表示;
三、向量相似度计算模块430,用于计算枢轴语-目标语翻译规则库中的枢轴语短语与第一枢轴语短语的语义相似度;
四、目标语短语查找模块440,用于在枢轴语-目标语翻译规则库中查找与第一枢轴语短语具有语义相似度的目标语短语;
五、短语对组合模块450,用于将所述第一源语言短语与第一目标语短语组合,形成至少一个源语言短语与目标语短语之间的短语对;
六、短语对存储模块460,用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语翻译规则库。
七、目标语短语输出模块470,用于根据源语言-目标语翻译规则库将与源语言对应的目标语输出,完成翻译处理。
本发明优点:
本发明通过对源语言-枢轴语翻译规则库以及枢轴语-目标语翻译规则库中的枢轴语短语进行向量表示,并计算各枢轴语短语之间的语义相似度来构建源语言-目标语翻译规则库,解决了枢轴语翻译方法中要求的源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,即规则1和规则2中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。
附图说明
图1基于相似度匹配的枢轴语言翻译方法流程图;
图2基于相似度匹配的枢轴语言翻译方法装置结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310636884.5/2.html,转载请声明来源钻瓜专利网。