[发明专利]一种机器翻译语序调整方法在审

专利信息
申请号: 201511031687.6 申请日: 2015-12-31
公开(公告)号: CN105677642A 公开(公告)日: 2016-06-15
发明(设计)人: 姚佳;刘世林;吴雨浓;陈炳章 申请(专利权)人: 成都数联铭品科技有限公司
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 暂无信息 代理人: 暂无信息
地址: 610041 四川省成都市高新区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 机器翻译 语序 调整 方法
【说明书】:

技术领域

发明涉及机器翻译领域,特别涉及一种机器翻译语序调整方法。

背景技术

如今互联网已经遍布全球,来自不同国籍和民族的人们能够随时随地分享 交流信息;人们也迫切希望能快速畅通的获得网络上的所有信息。故而,多种 语言之间准确高效的机器自动翻译在现在以及未来的国际化氛围下,有着极大 的市场需求。但是,一个性能高、功能强大、准确率高的互联网多语言翻译系 统在现在的技术水平下,还需要有很多重大的技术难点需要克服。在现有的机 器翻译水平之下,高质量的可用的机器译文依然是不可得的。目前解决这一问 题的一般方式为使用机器翻译作为前期处理,对机器翻译的结果作人工后编辑, 从而能够得到可用的翻译结果。一般情况下要得到高质量的翻译结果,对人工 后编辑的编辑人员的专业素质要求极高,专家级的人工后编辑人员是必不可少 的,但是面对巨大的翻译需求缺口,人工后编辑的工作量极大,数量有限的专 家是解决不了如此庞大的任务量,在后编辑中居高不下的人力和时间成本限制 了机器翻译的发展和应用。

研究者们通过对用户编辑模式和翻译错误类型的分析发现,在机器翻译的 结果中,很多错误是重复出现的(如词汇翻译错误,句子结构类型的错误,词 语形式的错误等),如果通过人工后编辑来处理这些重复的错误,将消耗极大的 人力和物力成本,同时也严重降低了机器翻译的效率和翻译用户体验的满意度。 因此很多研究者尝试构建一个自动后编辑模型,以根据机器翻译的错误类型自 动得修改包含相同或类似的翻译错误,以减少人工后编辑的工作量,提高机器 翻译质量。现有的主流方法大多是根据“机器译文——专家后编辑译文”的平 行语料训练出基于SMT(基于统计的机器翻译)的自动后编辑模型。虽然基于 统计机器翻译的自动后编辑的研究已经取得了一定的成果;但是统计机器翻译 SMT里面具体发生了什么,还有很多是不明确的。就这一后编辑技术而言,仅 能知道该方法能够提高最终翻译结果质量,但是不知道具体哪些后编辑操作是 有效的(即那部分后编辑操作代表了机器翻译系统的缺陷),这不利于直观的分析 机器翻译的弊端。在这些情况下如果能通过自动学习的方式解析出机器翻译的 重复错误的相关模式,并且将这些模式化的错误自动更正;可以分析出机器翻 译的错误根源,有助于从源头上提高机器翻译的质量。

此外对于机器翻译重复出现的错误中,译文词语顺序错误,语序语法错误 是基本的错误之一,据统计,语序错误(包括置前语序错误、句内疑问词(W) 短语语序错误、句内be动词/情态动词(MD)短语语序错误、句内邻居短语语 序错误等情况)在机器翻译总错误中所占据的比重很大,而且鉴于不同语言之 间存在的巨大的语法差异,语序错误在机器翻译中出现的机率很大,语序错误 极大的影响了机器翻译的专业化程度;同时由于语序和语法本身的复杂性,使 得机器翻译语序或者语法错误在人工后编辑中的更正难度也很大;而且相对译 词错误,语序和语法错误的重复率更高,如果都是通过人工后编辑来调整,耗 费的人力和时间成本巨大。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足,提供一种机器翻译 语序调整方法,通过在机器学习中引入译词调序规则模板,所述规则模板对比 机器译文与源文和标准译文,提取出译词调序规则,通过规则匹配找出需要交 换顺序的“crossover”词对或者词组对,通过调整词对的位置使得机器译文的语 序更加符合翻译目标语言的语法特点。

所述译词调序规则模板中,包含待调换词对的相应信息,当在机器译文和 源文中检测出符合译词调序规则模板的调序规则时,提取出该规则,并使用该 调序规则来执行相应的词对的位置调整动作。将调整后的机器译文与源文进行 输入到学习机中,再次匹配译词调序规则模板,进行调序规则检测,当检测出 符合译词调序规则模板的调序规则时,提取出该规则,并应用该规则再次调整 机器译文中的语序错误;重复上述过程,通过迭代不断提取新的调序规则,直 到不能学到新的译词调序规则时,停止迭代。在迭代的过程中通过将修改后机 器译文与标准译文进行比照,计算出调整前后的BLEU增益值,通过BLEU增 益值来判断修改后的机器译文的调整效果。

为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译语序调 整方法,包含以下实现过程:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201511031687.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top