[发明专利]裁剪语言模型的方法及装置有效

申请号：	200810084614.7	申请日：	2008-03-13
公开（公告）号：	CN101271450A	公开（公告）日：	2008-09-24
发明（设计）人：	李剑峰;王海峰;任登君;李国华	申请（专利权）人：	株式会社东芝
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京市中咨律师事务所	代理人：	李峥;刘瑞东
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	裁剪语言模型方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言的处理技术，具体地，涉及语言模型裁剪技术。

背景技术

语言模型在自然语言处理中得到了广泛的应用，例如亚洲语言分词、语音识别、亚洲语言的计算机输入(IMF)等。然而，在许多实际应用中，由于计算资源的限制，未经过裁剪的语言模型往往由于尺寸太大而无法直接应用。因此，语言模型裁剪技术被用来将一个尺寸较大的模型裁剪成较小的模型。裁剪的方法一般是根据一定的裁剪准则，删除语言模型中存储的一些参数，从而达到减小模型尺寸的目的。

以往的语言模型裁剪技术依据各种不同的裁剪准则决定语言模型中每一个参数是否被裁。已提出的裁剪准则主要包括出现频次(Count Cut-off)和K-L距离(Kullback-Leibler Distance)。

频次准则参见Fredrick Jelinek于1990年发表的文章“Self-organizedlanguage modeling for speech recognition”，In Alexander Waibel andKai-Fu Lee(Eds.)，Readings in Speech Recognition，pages 450-506，在此通过参考引入其整个内容。

K-L距离准则参见Andreas Stolcke于1998年发表的文章“Entropy-based Pruning of Backoff Language Models”，In Proc.ofDARPA News Transcription and Understanding Workshop，pages270-274，在此通过参考引入其整个内容。

然而，这些裁剪准则都是一般性的准则，没有针对语言模型在实际应用中的性能进行优化，因而模型裁剪不可避免地带来了性能损失。

另外，在Reinhard Kneser和Hermann Hey于1995年发表的文章“Improved Backing-Off for M-Gram Language Modeling”(IEEE，p.181-184，在此通过参考引入其整个内容)中公开了一种语言模型建模的方法。在随机语言模型的建模中，回退(backing-off)被广泛地使用以处理稀疏数据的问题。在该文献中描述了回退的处理过程。

发明内容

为了改善上述现有技术中存在的问题，本发明提供了裁剪语言模型的方法，以及裁剪语言模型的装置。

根据本发明的一个方面，提供了一种裁剪语言模型的方法，其中，该语言模型包括多个n元组及其概率，以及多个低阶的元组及其概率；上述方法包括：根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含上述低阶的元组及其概率；利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

根据本发明的另一个方面，提供了一种裁剪语言模型的装置，其中，该语言模型包括多个n元组(n-gram)及其概率，以及多个低阶的元组及其概率；上述装置包括：基础模型生成单元，根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含上述低阶的元组及其概率；重要性计算单元，利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及添加单元，将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施例的裁剪语言模型的方法的流程图；

图2是根据本发明的实施例的计算二元组重要性的一个实例的流程图；

图3是根据本发明的一个可选实施例的裁剪语言模型的方法的流程图；以及

图4是根据本发明的另一个实施例的裁剪语言模型的装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

裁剪语言模型的方法

图1是根据本发明的一个实施例的裁剪语言模型的方法的流程图。如图1所示，首先，在步骤101，根据语言模型生成初始的基础模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载