[发明专利]通过使用平方根折扣的统计语言的语音识别有效
| 申请号: | 200710141821.7 | 申请日: | 2007-08-13 |
| 公开(公告)号: | CN101123090A | 公开(公告)日: | 2008-02-13 |
| 发明(设计)人: | G·维尔申 | 申请(专利权)人: | 哈曼贝克自动系统股份有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/18 |
| 代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 沙捷 |
| 地址: | 德国卡*** | 国省代码: | 德国;DE |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 通过 使用 平方根 折扣 统计 语言 语音 识别 | ||
1.一种用于统计语言建模的方法,其包括以下步骤:
以预定的顺序提供预定数目的词;
提供包括预定数目词序列的训练语料,其中每个词序列由所提供 的预定顺序的预定数目的词组成,所述预定数目的词跟随有至少一个 额外词;
提供候选词,并基于训练语料为每个候选词计算该候选词跟随所 提供的预定数目的词的概率得到所述候选词的概率;和
确定对其计算的概率超过预定阈值的至少一个候选词;
其中所述候选词的概率是基于平滑的最大似然概率计算的,该最 大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序 列,该最大似然概率大于或等于预定的正实数,该正实数小于或等于 训练语料的词序列的预定数目的倒数值,
其特征在于,如果观察到的训练语料的词序列的频率cj都没有落 在所述预定的正实数乘以训练语料的所有预定数目的词序列的整体频 率以下,这里cj表示训练语料的N个词序列中观察到的第j个词 序列的频率,其中该正实数小于或等于词序列的预定数目的倒数值, 则对于包括所提供的跟随有所述候选词的预定顺序的预定数目的词或 由其组成的每个词序列,基于最大似然概率计算每个候选词的概率。
2.如权利要求1所述的方法,其中如果对于至少一个j,cj<mS, 这里cj表示训练语料的N个词序列中观察到的第j个词序列的频率, 且S是训练语料中所有观察到的词序列的整体频率且m是 预定正实数,其小于或等于词序列的预定数目N的倒数值,对所述候 选词的概率pj的计算包括以下步骤:
a)以下式计算实数α
其中
且
b)计算平滑的计数
c)通过pj=cj’/S计算平滑的概率pj,和
d)如果pj≥m,由pj确定每个候选词的概率。
3.如权利要求2所述的方法,其中如果如步骤c)中计算的pj至 少有一个小于预定正实数m,该正实数小于或等于词序列的预定数目 N的倒数值,则按照从最大似然概率pj(0)=cj/S开始并进一步由pj(n)= <(pj(n-1))>定义的概率pj(n)的归纳序列,对权利要求2中的步骤a)到c) 进行迭代,确定每个候选词的概率,其中<>表示平滑的计数cj’的迭代 计算。
4.如前述任一权利要求所述的方法,其中训练语料中包括的每个 词序列由二元文法和/或三元文法和/或四元文法组成。
5.如权利要求1所述的方法,其中每个候选词的概率是基于n元 文法和(n-1)元文法计算的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈曼贝克自动系统股份有限公司,未经哈曼贝克自动系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710141821.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:便携式管道相贯线切割装置
- 下一篇:Al-Si合金活塞材料双温热处理工艺





