[发明专利]面向计算机辅助翻译的输入方法与装置在审
申请号: | 201410678005.X | 申请日: | 2014-11-21 |
公开(公告)号: | CN104462072A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 宗成庆;黄国平 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F3/023 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 计算机辅助 翻译 输入 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种面向计算机辅助翻译的输入方法与装置。
背景技术
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。
计算机辅助翻译就是充分运用大量重复或相似的句子和片断来提高翻译人员的工作效率。它不同于机器翻译,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程。计算机辅助翻译使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
近几年来,许多研究者尝试通过机器翻译知识来进一步提高计算机辅助翻译的效率。目前研究的热点是译后编辑,即对机器翻译系统的译文进行编辑操作以生成高质量的译文。但由于目前的机器翻译难以产生让人相对满意的译文,直接导致译员没有动力仔细修改机器翻译的译文,所以译后编辑并未被广泛采用。另外,有学者曾提出基于交互式机器翻译方法的辅助翻译(例如参见Sergio Barrachinaetc.,“Statistical Approaches to Computer-Assisted Translation”,Computational Linguistics,35(1),p3-28,2009),以牺牲全自动的翻译要求而获取较高质量译文的一种翻译方法,基本思想就是在当前翻译系统翻译结果上,用户指出一些错误并提供正确翻译,然后提交给翻译系统重新解码翻译,迭代多次后满足用户要求为止。但交互式翻译方法严重干扰了人工翻译流程,并且同样耗时费力,因此这类系统主要应用在用户对目标语言的知识有限或者对目标语言知之甚少的情况下。而计算机辅助翻译的主要用户是专业译员,所以交互式翻译方法几乎从未被商业翻译系统采用。Guy Lapalme和Philippe Langlais于1997-2005年间基于交互式翻译框架实现了TransType翻译系统,在用户输入过程中实时给出后续翻译的提示。但这要求译员必须从左至右开始翻译,机器翻译根据已经输入的部分更新翻译结果以给出尽可能准确的提示。升级后的TransType2实现了三种语言对的翻译,即英语→西班牙语、英语→法语、英语→德语,但因难于结合人工翻译的流程,TransType2这种交互方式并没有被其他系统采用。因此,研究如何结合机器翻译知识以进一步提高翻译效率和翻译质量是迫切需要解决的一个难题。
发明内容
针对上述技术问题,本发明的主要目的在于提出一种面向计算机辅助翻译的输入方法与装置,以在输入过程中能够充分利用机器翻译知识来提高翻译效率和翻译质量。
为了实现所述目的,作为本发明的一个方面,本发明提供了一种面向计算机辅助翻译的输入方法,包括如下步骤:
步骤S1:对源语言句子进行分词;
步骤S2:利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择;
步骤S3:对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择;
步骤S4:对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界面,等待用户按键选择,并跳转到步骤S3;
其中,N、M为正整数。
其中,所述多元文法提示短语包括:第一个提示短语为一元文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词,其中N为预先设定的大于零的正整数,缺省值为4。
在步骤S3中还包括下列步骤:
步骤S31:对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部或者文字输入法编码的前缀;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410678005.X/2.html,转载请声明来源钻瓜专利网。