[发明专利]一种机器翻译后编辑处理方法在审
申请号: | 201610045883.7 | 申请日: | 2016-01-22 |
公开(公告)号: | CN105740218A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 姚佳;刘世林;吴雨浓;陈炳章 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 编辑 处理 方法 | ||
技术领域
本发明涉及机器翻译领域,特别涉及一种机器翻译后编辑处理方法。
背景技术
如今互联网已经遍布全球,来自不同国籍和民族的人们能够随时随地分享交流信息;人们也迫切希望能快速畅通的获得网络上的所有信息。故而,多种语言之间准确高效的机器自动翻译在现在以及未来的国际化氛围下,有着极大的市场需求。但是,一个性能高、功能强大、准确率高的互联网多语言翻译系统在现在的技术水平下,还需要有很多重大的技术难点需要克服。在现有的机器翻译水平之下,高质量的可用的机器译文依然是不可得的。目前解决这一问题的一般方式为使用机器翻译作为前期处理,对机器翻译的结果作人工后编辑,从而能够得到可用的翻译结果。一般情况下要得到高质量的翻译结果,对人工后编辑的编辑人员的专业素质要求极高,专家级的人工后编辑人员是必不可少的,但是面对巨大的翻译需求缺口,人工后编辑的工作量极大,数量有限的专家是解决不了如此庞大的任务量,在后编辑中居高不下的人力和时间成本限制了机器翻译的发展和应用。
研究者们通过对用户编辑模式和翻译错误类型的分析发现,在机器翻译的结果中,很多错误是重复出现的(如词汇翻译错误,句子结构类型的错误,词语形式的错误等),如果通过人工后编辑来处理这些重复的错误,将消耗极大的人力和物力成本,同时也严重降低了机器翻译的效率和翻译用户体验的满意度。因此很多研究者尝试构建一个自动后编辑模型,以根据机器翻译的错误类型自动得修正包含相同或类似的翻译错误,以减少人工后编辑的工作量,提高机器翻译质量。现有的主流方法大多是根据“机器译文——专家后编辑译文”的平行语料训练出基于SMT(基于统计的机器翻译)的自动后编辑模型。虽然基于统计机器翻译的自动后编辑的研究已经取得了一定的成果;但是统计机器翻译SMT里面具体发生了什么,还有很多是不明确的。就这一后编辑技术而言,仅能知道该方法能够提高最终翻译结果质量,但是不知道具体哪些后编辑操作是有效的(即那部分后编辑操作代表了机器翻译系统的缺陷),这不利于直观的分析机器翻译的弊端。在这些情况下如果能通过自动学习的方式解析出机器翻译的重复错误的相关模式,并且将这些模式化的错误自动更正;可以分析出机器翻译的错误根源,有助于从源头上提高机器翻译的质量。
此外机器翻译的错误一般分为两类,第一、译词错误,翻译中译词错误是基本的错误之一,据统计,译词错误(包括词语丢失、多余词语、词语错误、译词不一致等情况)可以占到机器翻译总错误的60%以上;第二、语序错误,译文词语顺序错误,语序语法错误是基本的错误之一,据统计,语序错误(包括置前语序错误、句内疑问词(W)短语语序错误、句内be动词/情态动词(MD)短语语序错误、句内邻居短语语序错误等情况)在机器翻译总错误中所占据的比重很大,而且鉴于不同语言之间存在的巨大的语法差异,语序错误在机器翻译中出现的机率很大,语序错误极大的影响了机器翻译的专业化程度。译词错误和语序错误在机器翻译错误中所占的比重都很大,如果单一的纠正某个错误对机器翻译效果的改进是局部有限的;面对大量的翻译需求,需要一种能够综合提高机器译文质量的办法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种机器翻译后编辑处理方法,通过在对机器译文先进行译词错误修正再进行语序错误调整,使得机器翻译的译文质量显著提高。为了实现上述目的,本发明构建了错词修正规则模板和调序规则模板,根据先错词修正后语序调整的的方法来修改机器翻译的译文错误。其中本发明中的错词修正规则模板包含当前词和替换词的相关信息,所述当前词和替换词的相关信息除包含对应机器译文和标准译文的相关信息外,还包含对应源文的相关信息。所述调序规则模板中包含第一待调序词和第二待调序词的相关信息,以及第一待调序词和第二待调序词的相关信息。
为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译后编辑处理方法,包含以下实现过程:
(1)构建错词修正规则模板,所述错词修正规则模板包括规则条件和修正动作,其中规则条件包括机器翻译的当前词,当前词的前N个词汇和当前词的后N个词汇,以及当前词对应的译文源词的前N个词汇和后N个词汇,其中N为不小于1的正整数;所述修正动作为:将当前词修正为替换词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610045883.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:塔式抽油机
- 下一篇:OR链式总线的增强数据总线反转编码的方法和装置