[发明专利]短句切分装置、机器翻译系统及对应切分方法和翻译方法有效
申请号: | 201310432908.5 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103530284A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 任智军;张威;蒋宏飞;熊文;姜涛;张凯 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京瑞恒信达知识产权代理事务所(普通合伙) 11382 | 代理人: | 苗青盛;黄庆芳 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短句 切分 装置 机器翻译 系统 对应 方法 翻译 | ||
技术领域
本发明涉及自然语言处理技术,更具体地,涉及一种短句切分方法及装置、机器翻译的方法和系统。
背景技术
随着科技的进步,国际交流的日益繁杂和信息量急剧增加,不同语言之间的障碍所导致的信息问题越来越影响沟通的效率,通过计算机来处理不同语言文本的互译,突破语言障碍,是机器翻译研究的重要课题。目前的机器翻译以统计方法为主,而词对齐是现有统计方法的基础,词对齐的好坏决定了翻译质量的好坏。
另外,在自然语言处理的机器翻译过程中,一般把自然语言句子作为基本分析单位,现有方法的处理的时空复杂度一般都和句子长度高度相关。在处理长句子的时候,会导致指数级的时空消耗,很多复杂的模型将无法高效使用。因此,为保证时间、空间可行性,经常会降低到较为简单的模型上,从而带来质量性能的下降。
为了减少句长带来的处理难度,有的现有方法将标点作为切分点,对句子进行统一切分,但是经常会在不应该断句的地方将句子切断,导致后续的处理步骤性能下降。
目前公开可用的对齐工具仍然是GIZA++,但是对于句子比较长的情况,其规划路径太多,复杂度会非常高,处理时间会大大增加。所以,有必要对于句子进行优化的切分,并且对齐在一个可靠的较小范围内进行搜索和匹配,才能保证一定精度情况下缩短处理时间,或者才能保证整个翻译的精度,进 而提高翻译效率。
发明内容
为克服现有的在处理长句时时间空间消耗严重、性能不够高的缺陷,本发明提出一种短句切分方法及装置以及机器翻译的方法和系统。
根据本发明的一个方面,提出了一种短句切分的装置,包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;其中,短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;其中,短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;其中,最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;其中,短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
根据本发明的另一方面,提出了一种机器翻译系统,包括短句切分模块、翻译模块、译文合并模块、模型生成模块和短句切分模型训练模块;其中,短句切分模块,用于基于短句切分模型训练模块得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;其中,模型生成模块,用于基于短句切分模型训练模块得到的双语平行短句对齐语料来训练生成翻译模型;其中,短语翻译模块,用于利用模型生成模块生成的翻译模型对待翻译文本进行翻译;译文合并模块,用于将短语翻译模块获得的对应一个整句的短句序列的译文进行合并,以形成完整译文;其中,短句切分模型训练模块,用于训练短句切分模型,供短句切分模块使用。
根据本发明的又一方面,提供一种短句切分方法,包括:步骤1,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;步骤2, 将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;步骤3,将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;步骤4,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
根据本发明的又一方面,提供一种机器翻译方法,包括:步骤1,训练短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;步骤2,基于双语平行短句对齐语料来训练生成翻译模型;步骤3,利用翻译模型对待翻译文本进行翻译;步骤4,将翻译获得的对应一个整句的短句序列的译文进行合并,以形成完整译文。
本发明通过采用短句切分装置对待翻译文本进行短句切分,可以减少句长带来的处理难度,有效提高翻译的精度。同时,利用一对一短句句对齐语料训练短句切分模型,可以智能识别句子该切断的标点,有效提高后续的处理步骤的性能,进而通过翻译系统提高翻译效率,增加翻译的精确性。
附图说明
图1为根据本发明的机器翻译系统的结构示意框图;
图2为根据本发明的最小对齐块合并方法的示例图;
图3为根据本发明的短句切分方法的流程图;
图4为根据本发明的双语短句平行语料生成方法的流程图;
图5为根据本发明的机器翻译方法的第一实施例的流程图;
图6为根据本发明的机器翻译方法的第二实施例的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310432908.5/2.html,转载请声明来源钻瓜专利网。