[发明专利]一种机器翻译语序调整方法在审
申请号: | 201511031687.6 | 申请日: | 2015-12-31 |
公开(公告)号: | CN105677642A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 姚佳;刘世林;吴雨浓;陈炳章 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 语序 调整 方法 | ||
1.一种机器翻译语序调整方法,其特征在于:包含以下实现过程:
(1)构建译词调序规则模板,所述译词调序规则模板包括:待调序词对的 对应信息,所述待调换词对包括:当前词和调换词,其中所述当前词信息包括: 当前词,当前词的前后N个词与对应的词性以及当前词对应原词的前后N个词; 所述调换词信息包括:调换词,调换词的前后N个词与对应的词性以及调换词 对应源词的前后N个词,其中N为0或者为正整数;
(2)使用上述译词调序规则模板来提取机器翻译的译词调序规则。
2.如权利要求1所述的处理方法,其特征在于:所述当前词和调换词的获 取过程包括:通过将机器译文和标准译文对齐,建立起机器译文与标准译文词 语的映射关系;当发现机器译文与标准译文的映射中,存在位置交叉的词对时, 认为该词对为调换词对,将调换词对中前一个词定义为当前词,将后一个词定 义为调换词。
3.如权利要求2所述的处理方法,其特征在于:其中所述步骤(2)中包 括以下实现步骤:
(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;
(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;
(2-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习 机中;
(2-4)所述学习机对比机器译文与标准译文和源文的差异,根据译词调序 规则模板提取机器译文中的语序调整的第一规则,形成对应的第一规则集合;
(2-5)利用第一规则集的每条规则来调整开发集机器译文;并将调整后的 开发集机器译文与开发集标准译文进行比较,计算调整前后BLEU的增益值; 从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第一调序规则;
(2-6)应用所述第一调序规则来调整机器译文,形成第一调整译文;
(2-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标 准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;
(2-8)利用第二规则集的每条规则来调整开发集中机器译文;并将调整后 的译文与开发集的标准译文进行比较,计算调整前后BLEU的增益值;从规则 集中选出BLEU的增益值最大的调序规则,将其定义为:第二调序规则;
依次迭代,直到BLEU的增益值小于设定的阈值,停止计算。
4.如权利要求3所述的处理方法,其特征在于:在规则提取的过程中,将 每次从规则集中选出BLEU的增益值最大的调序规则提取出来;按提取的先后 顺序形成规则序列。
5.如权利要求4所述的处理方法,其特征在于:应用所述规则序列来自动 调整机器译文中的语序错误。
6.如权利要求1至5之一所述的处理方法,其特征在于:所述当前词前N 个词为为空值。
7.如权利要求1至5之一所述的处理方法,其特征在于:所述调换词的后 N个词为空值。
8.如权利要求1至5之一所述的处理方法,其特征在于:所述当前词为单 个词或者为由至少两个个单词组成的词块。
9.如权利要求1至5之一所述的处理方法,其特征在于:所述调换词为单个词 或者为由至少两个单词组成的词块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511031687.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吸附式神经内科按摩护理装置
- 下一篇:一种新型拐杖