[发明专利]一种机器翻译后编辑处理方法在审
申请号: | 201610045883.7 | 申请日: | 2016-01-22 |
公开(公告)号: | CN105740218A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 姚佳;刘世林;吴雨浓;陈炳章 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 编辑 处理 方法 | ||
1.一种机器翻译后编辑处理方法,其特征在于:包含以下实现过程:
(1)构建错词修正规则模板,所述错词修正规则模板包括规则条件和修正动作,其中规则条件包括机器翻译的当前词,当前词的前N个词汇和当前词的后N个词汇,以及当前词对应的译文源词的前N个词汇和后N个词汇,其中N为不小于1的正整数;所述修正动作为:将当前词修正为替换词;
构建调序规则模板,所述调序规则模板包括:待调序词对的对应信息,所述待第二待调序词对包括:第一待调序词和第二待调序词,其中所述第一待调序词信息包括:第一待调序词,第一待调序词的前后N个词与对应的词性以及第一待调序词对应原词的前后N个词;所述第二待调序词信息包括:第二待调序词,第二待调序词的前后N个词与对应的词性以及第二待调序词对应源词的前后N个词,其中N为0或者为正整数;
(2)使用上述错词修正规则模板提取机器翻译的错词修正规则,根据错词修改规则来修正机器翻译的译词错误;
(3)使用上述调序规则模板来提取机器翻译的调序规则,并根据调序规则来调整经过步骤(2)修正后的机器译文中的语序错误。
2.如权利要求1所述的方法,其特征在于:所述当前词和替换词的获取过程包括:通过将机器译文和标准译文及源文的内容进行对比,当发现机器译文中A词的上下文内容与标准译文中的B词的上下文内容相同,而A≠B时,就将机器译文中的A词作为当前词,而将标准译文中的B词作为替换词。
3.如权利要求2所述的方法,其特征在于:其中所述步骤(2)中包括以下实现步骤:
(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;
(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;(2-3)将所述训练样本集与机器译文输入到具有错词修正规则模板的学习机中;
(2-4)所述学习机对比机器译文与标准译文和源文的差异,根据错词修正规则模板提取机器译文中的错词修正的第一规则,形成对应的第一规则集合;
(2-5)利用第一规则集均修正Dev机器译文;并修正后的译文与Dev标准译文进行比较,计算每一条规则的BLEU增益值,从规则集中选出BLEU的增益值最大的修正规则,将其定义为:第一修正规则;
(2-6)应用所述第一修正规则来修正机器译文,形成第一修正译文,同样将第一修正规则应用到Dev机器译文;
(2-7)将第一修正译文输入学习机中;所述学习机对比第一修正译文与标准译文和源文的差异,根据错词修正规则模板提取第二规则,形成第二规则集;
(2-8)利用第二规则集来修正Dev机器译文;并修正后的译文与Dev标准译文进行比较,计算每一条规则的BLEU增益值,从规则集中选出BLEU的增益值最大的修正规则,将其定义为:第二修正规则;
依次迭代,直到所有抽取的修正规则的BLEU增益值小于设定的阈值,停止计算。
4.如权利要求3所述的方法,其特征在于:在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的修正规则提取记录下来;按照返回的先后顺序形成规则序列。
5.如权利要求4所述的方法,其特征在于:应用所述规则序列来自动更正机器译文中的错误译词;减少机器译文中的译词错误。
6.如权利要求1至5之一所述的方法,其特征在于,所述第一待调序词和第二待调序词的获取过程包括:通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在位置交叉的词对时,认为该词对为第二待调序词对,将第二待调序词对中前一个词定义为第一待调序词,将后一个词定义为第二待调序词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610045883.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:塔式抽油机
- 下一篇:OR链式总线的增强数据总线反转编码的方法和装置