[发明专利]一种基于强制解码的动态抽取翻译模板的方法有效
申请号: | 201610420062.7 | 申请日: | 2016-06-13 |
公开(公告)号: | CN107491441B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 王强;杨木润;肖桐;朱靖波 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06F40/58 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110003 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强制 解码 动态 抽取 翻译 模板 方法 | ||
本发明涉及一种基于强制解码的动态抽取翻译模板的方法,步骤为:输入双语句子级平行数据,分别对源语和目标语分词,得到平行句对;用基于短语的统计机器翻译系统对每一个平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;输入待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;从平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板。本发明避免了非终结符粒度过大而错过最佳翻译模板以及非终结符粒度过小而无法应用翻译模板,提高了翻译模板的覆盖度和使用率以及翻译准确度。
技术领域
本发明涉及机器翻译领域,具体来说是一种基于强制解码的动态抽取翻译模板的方法。
背景技术
翻译模板是机器翻译中一种翻译知识的表示形式,能够将源语(待翻译内容)映射到目标语(被翻译内容),其中源语和目标语是由常量和变量组成,属于同步上下文无关文法(SCFG)。翻译模板中的常量指具体词汇,也叫终结符;变量称为非终结符,且源语和目标语之间的非终结符之间一一对应。一个翻译模板示例如下:
源语:我 想 去 操场 上 打 X
目标语:I want to play X in playground
其中,“我”,“想”等中文词汇,以及”I”,”want”等英文词汇,均称为终结符;而其中的“X”表示非终结符,表示该位置可以作为变量被其他词汇序列替换。
在应用翻译模板执行翻译时,只需将待翻译句子与翻译模板源语匹配,确定非终结符部分,并将相应的非终结符译文放置到目标语中对应位置,即可完成翻译任务,是一种高精度的翻译方法。
例如,在应用上述翻译模板对“我 想 去 操场 上 打 网球”这句话翻译时,只需将待翻译句子与翻译模板的源语匹配,确定非终结符部分为“网球”,然后将“网球”的译文“tennis”放置到目标语中X的位置便能得到高质量的翻译结果“I want to play tennisin playground”。
生成翻译模板的方法主要有两种:人工书写及自动抽取。
对于人工书写方法,由于人工书写的效率低、成本高,并且人工书写也常常面临书写规范不统一、翻译模板书写前后冲突等问题,所以难以大规模应用。
而对于自动抽取方法,通常使用的方法是利用句法分析或词汇间的固定搭配信息等方法确定单语句子中非终结符的部分,一般是名词短语、形容词短语等。然后利用自动词对齐信息或外部资源(如互译的双语词典)等方法识别非终结符之间的对应关系,从而产生翻译模板。
通过上述方法,便可以从任何双语句子级对齐的数据中抽取出翻译模板,从而形成翻译模板的集合,称为翻译模板库。
由此可见,在传统的自动抽取翻译模板方法中,翻译模板的抽取与翻译模板的应用是两个完全独立的过程。当抽取翻译模板时,只根据当前双语句对的信息抽取翻译模板,并没有考虑待翻译句子的信息;而在应用翻译模板时,所有的翻译模板是固定的,并不会因为待翻译句子的不同而发生改变,因此称上述自动抽取翻译模板方法是静态方法。
由于静态抽取翻译模板方法在抽取时并没有考虑待翻译句子的信息,非终结符部分始终都是固定的,所以在应用该方法产生的翻译模板时面临如下问题:
1.翻译模板中非终结符粒度过大,导致待翻译句子错过潜在的更精确的翻译模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610420062.7/2.html,转载请声明来源钻瓜专利网。