[发明专利]多语机器翻译智能辅助处理方法和系统有效
| 申请号: | 201210410530.4 | 申请日: | 2012-10-24 |
| 公开(公告)号: | CN102968411A | 公开(公告)日: | 2013-03-13 |
| 发明(设计)人: | 滕志扬;骆卫华;刘群;熊皓 | 申请(专利权)人: | 橙译中科信息技术(北京)有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 陈振 |
| 地址: | 100190 北京市海淀区中关村*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器翻译 智能 辅助 处理 方法 系统 | ||
技术领域
本发明涉及自然语言计算机处理技术领域,尤其是涉及机器翻译技术领域,特别是涉及一种多语机器翻译智能辅助处理方法和系统。
背景技术
在文本翻译的过程中,翻译人员通常需要将一种语言(源语言)翻译成另外一种语言(目标语言)。
近年来,基于机器翻译和翻译记忆的计算机辅助翻译解决了人工翻译中的一些问题,但是计算机辅助翻译通常有三个问题。第一,基于词的辅助翻译提示的粒度太小,部分词语的在句子中的翻译往往不是词语直接对应的目标语言候选。第二,基于移动调序的机器翻译后编辑形式的辅助翻译,很费时费力,翻译人员操作很不方便。第三,基于机器翻译的以短语为粒度的候选提示,首先将所有的短语翻译候选列出,然后让操作人员通过选择候选的方式的进行后编辑,这种方式一定程度地解决了词粒度的候选提示问题。但是,这种方式的短语候选翻译列表不能根据翻译人员输入而动态改变。翻译人员在翻译的过程中,要进行目标语言的输入。现有的目标语言输入方法通常是一种语言的音字转换过程,从翻译文本录入过程的角度来看,现有方法主要有四个不足。第一,现有的方法通常直接针对目标语言而设计,没有利用源语言的信息;第二,现有的方法,没有把人工翻译和机器翻译交互式地结合起来;第三,现有的方法很少有支持翻译的功能,翻译的粒度不够。第四,现有的方法无法结合已输入的目标语言上下文和翻译人员翻译习惯的进行智能翻译。
发明内容
本发明提供了一种多语机器翻译智能辅助处理方法和系统,其克服现有技术中存在的不足,加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。
为实现本发明目的而提供了一种多语机器翻译智能辅助处理方法,包括如下步骤:
步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S300之后还包括如下步骤:
步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤S100重新进行未翻译源语言翻译,直至翻译完成。
较优地,作为一可实施例,所述步骤S100包括如下步骤:
步骤S110,设已翻译目标语言集E=e1...em(m>=1),则确定一个E的划分S:{(a,b)|1=<a<=b<=m},对于任意的一个元素(a,b)属于S,计算确定一个源语言集对应的区间(a',b')的集合T,得到已翻译源语言区间集合;
步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。
较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤:
步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于0的整数;
步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。
较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤:
步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后n个词previous_n_word,n为整数,n与所用的语言模型相对应;
步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213’,根据n个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于橙译中科信息技术(北京)有限公司,未经橙译中科信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210410530.4/2.html,转载请声明来源钻瓜专利网。





