[发明专利]基于组合的短语规则抽取方法有效
申请号: | 201210464597.6 | 申请日: | 2012-11-16 |
公开(公告)号: | CN102999486A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 朱靖波;李强;肖桐;张浩 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 张志伟 |
地址: | 110003 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 短语 规则 抽取 方法 | ||
技术领域
本发明涉及一种基于短语的统计机器翻译系统中的短语处理技术,具体的说是一种基于组合的短语规则抽取方法。
背景技术
基于短语的统计机器翻译系统在机器翻译领域的性能表现出非常强的竞争力。基于短语的方法之所以有效很大一部分原因在于该方法依赖一个质量较高的短语规则集。在短语规则集中,每一个源语言短语被映射到一个或多个不同的目标语短语。在短语系统中,短语由一系列连续的单词构成,短语并没有语言学意义。目前,一些机器翻译领域研究人员已经提出一些行之有效的短语规则抽取方法。在这些短语规则抽取方法中,启发式方法得到了广泛的应用。该抽取方法通过使用双语语料中每个句子对应的词对齐信息,抽取出所有与词对齐信息保持一致的短语规则。由于该规则抽取方法简单、易于实现,同时表现出非常优越的性能,所以在目前基于短语的统计机器翻译系统中得到了广泛的应用。在使用抽取短语规则的过程中,最终抽取出来的短语规则的数量与训练数据中单词的数量成二次方关系。为了得到一个规模可控的短语规则集,通常的做法是对抽取的源语言及目标语言短语的长度加以限制。在多数的性能优异的机器翻译系统中,默认设置将抽取的源语和目标语短语所含单词个数的上限设置为7到10个词。例如,Moses将抽取出来的短语的源语言端与目标语言端的长度限制为7个词。现已经证明将短语规则集中的大部分规则删除并不会影响翻译系统的性能。
为了减小短语规则集的大小,目前最普遍使用的方法是对现有的启发式规则抽取方法,即基准短语规则抽取方法抽取出的短语规则进行过滤,从而减小短语规则集的大小。基准短语规则抽取方法在性能优异的基于短语的统计机器翻译系统中得到了广泛使用,如Moses系统,NiuTrans系统。在Koehn等提出的短语规则模型中,短语规则必须满足一致性定义。所述一致性定义为:
短语对与词对齐信息保持一致,当且仅当中的所有单词在词对齐A中所对应的单词在范围之内,中的所有单词在词对齐A中所对应的单词在范围之内;与此同时,在与中,至少有一个单词对在词对齐A中。
其中,表示源语短语,表示目标语短语。该定义的直观解释:给定一源语短语及目标语短语,在任意一端的短语中,至少有一个单词对应到另一端的短语中;同时,任意一端短语中的所有单词都不可对应到另一端短语之外。通过如上定义,在Koehn等提出的模型下的所有的短语规则都必须满足一致性的定义。可以根据如上定义直接从平行语料中抽取与词对齐信息保持一致的短语规则:首先在每一个句对中,从源语与目标语端循环查找所有短语,然后输出与词对齐信息保持一致的短语规则。通过该方法进行短语规则集构造时,在规则抽取的过程中,需要设置抽取短语的所含单词的最大个数,这样才可避免得到规模不可控的短语规则集。图2中右侧Baseline列表示用基准短语规则抽取方法从示例的含有词对齐信息的句对中抽取的短语规则。从抽取出的短语规则可以看出,这些规则均与词对齐保持一致。
但是,基准短语规则抽取方法有不可避免的问题,即在规则抽取过程中,短语长度需要进行机械的调试以获取最优的短语规则集。抽取出的短语规则表非常大、占用硬盘空间多、同时含有较多的噪音数据。
发明内容
针对现有技术中启发式规则抽取方法抽取出的短语规则表非常大、占用硬盘空间多、含有较多的噪音数据等不足之处,本发明要解决的技术问题是提供一种可生成紧凑的、含有较多上下文信息的短语规则集的基于组合的短语规则抽取方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于组合的短语规则抽取方法包括以下步骤:在双语语料中构造一个“最小短语规则”;
通过组合最小短语规则来构造一个含有更多上下文信息的短语规则集,形成“组合的短语规则集”;基于组合的短语规则集,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;
设置组合次数n的值,构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;
如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;
输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。
所述最小短语规则为:在与词对齐信息保持一致的情况下,不能再被分解为两个或者更多的规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210464597.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于地理位置服务搜索的信息展示方法和装置
- 下一篇:一种多核测试的方法和装置