[发明专利]通过使用平方根折扣的统计语言的语音识别有效

申请号：	200710141821.7	申请日：	2007-08-13
公开（公告）号：	CN101123090A	公开（公告）日：	2008-02-13
发明（设计）人：	G·维尔申	申请（专利权）人：	哈曼贝克自动系统股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/18
代理公司：	北京纪凯知识产权代理有限公司	代理人：	沙捷
地址：	德国卡***	国省代码：	德国;DE
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过使用平方根折扣统计语言语音识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于统计语言建模的方法，其包括以下步骤：

以预定的顺序提供预定数目的词；

提供包括预定数目词序列的训练语料，其中每个词序列由所提供的预定顺序的预定数目的词组成，所述预定数目的词跟随有至少一个额外词；

提供候选词，并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率得到所述候选词的概率；和

确定对其计算的概率超过预定阈值的至少一个候选词；

其中所述候选词的概率是基于平滑的最大似然概率计算的，该最大似然概率是为训练语料的词序列计算的，对于训练语料的所有词序列，该最大似然概率大于或等于预定的正实数，该正实数小于或等于训练语料的词序列的预定数目的倒数值，

其特征在于，如果观察到的训练语料的词序列的频率c_j都没有落在所述预定的正实数乘以训练语料的所有预定数目的词序列的整体频率以下，这里c_j表示训练语料的N个词序列中观察到的第j个词序列的频率，其中该正实数小于或等于词序列的预定数目的倒数值，则对于包括所提供的跟随有所述候选词的预定顺序的预定数目的词或由其组成的每个词序列，基于最大似然概率计算每个候选词的概率。

2.如权利要求1所述的方法，其中如果对于至少一个j，c_j＜mS，这里c_j表示训练语料的N个词序列中观察到的第j个词序列的频率，且S是训练语料中所有观察到的词序列的整体频率且m是预定正实数，其小于或等于词序列的预定数目N的倒数值，对所述候选词的概率p_j的计算包括以下步骤：

a)以下式计算实数α

α=Σj=1Nc‾j-SΣj=1Nc~j]]>

其中

且

b)计算平滑的计数

c)通过p_j＝c_j’/S计算平滑的概率p_j，和

d)如果p_j≥m，由p_j确定每个候选词的概率。

3.如权利要求2所述的方法，其中如果如步骤c)中计算的p_j至少有一个小于预定正实数m，该正实数小于或等于词序列的预定数目 N的倒数值，则按照从最大似然概率p_j⁽⁰⁾＝c_j/S开始并进一步由p_j⁽ⁿ⁾＝ <(p_j^(n-1))＞定义的概率p_j⁽ⁿ⁾的归纳序列，对权利要求2中的步骤a)到c) 进行迭代，确定每个候选词的概率，其中<>表示平滑的计数c_j’的迭代计算。

4.如前述任一权利要求所述的方法，其中训练语料中包括的每个词序列由二元文法和/或三元文法和/或四元文法组成。

5.如权利要求1所述的方法，其中每个候选词的概率是基于n元文法和(n-1)元文法计算的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈曼贝克自动系统股份有限公司，未经哈曼贝克自动系统股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710141821.7/1.html，转载请声明来源钻瓜专利网。

上一篇：便携式管道相贯线切割装置
下一篇：Al－Si合金活塞材料双温热处理工艺

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过使用平方根折扣的统计语言的语音识别有效

专利文献下载