[发明专利]语音识别无效

申请号：	00806783.X	申请日：	2000-04-26
公开（公告）号：	CN1349642A	公开（公告）日：	2002-05-15
发明（设计）人：	亨利·阿齐马;肖恩·卡瓦纳;查拉拉波斯·费尔基迪斯	申请（专利权）人：	新型转换器有限公司
主分类号：	G10L15/02	分类号：	G10L15/02
代理公司：	北京市柳沈律师事务所	代理人：	马莹,邵亚丽
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种语音识别的方法，以及一种实施该方法的系统。

背景技术

已知有一些语音识别系统的已有技术。大部分商业处理方式为使用一种隐藏式马尔可夫模型(hidden Markov model)(HMM)。在此模型中，语音的短暂间隔使用一种产生一个给定的输出的任一个给定的字或子字的似然性的概率统计(probabilistic)模型来处理。语音的短间隔可能会重叠，并且可能藉由频谱参数来将其参数化，该频谱参数例如是滤波器组的输出、一个离散傅立叶变换，或是输入语音的线性预测编码分析的参数。然后确定输入语音与模型的最佳匹配。在模型中使用的概率值是由一个训练阶段(training phase)所产生。这种方式是常规的处理方式，对该技术的标准，本文不作进一步说明。

许多商业用的套装软件使用此种处理方式与一语言引擎，其使用的有关口头语言的信息减低了可能的概率。此处理方式已经使得几个套装软件能够达到97％的命中率。然而，这个数还是有必要再增加。

一种已知的时间编码语音(TES)或TESPAR处理方式已在GB2020517、GB 2084433、GB 2162024、GB 2162025、GB 2187586、GB 2179183、WO 92/15089、WO 97/31368、WO 97/45831以及WO 98/08188中说明。在此处理方式中，语音被编码成为少量的符号。使用这种方式编码语音的语音识别系统在WO 97/45831与GB 2187586中已披露。然而，此方法显然并没有被广泛地应用；其原因是使用此种方法的识别率并不高。

发明内容

本发明提供了一种语音识别的方法，该方法包含：

输入要被识别的语音，

使用时间编码系统对该输入语进行编码，

使用一隐藏式的马尔可夫模型来确定其分数(score)，用以指明该输入语音是否与多个语音元素的部分或者全部匹配，

如果匹配，则使用该时间编码语音及马尔可夫分数来确定那个语音元素最符合该输入语音，以及

如果符合，则输出确定的语音元素。

该语音波形的特征在于在一平均值附近的压力波动，基于时间编码的目的，此平均值可以被视为“零”值，如下文所述。因此，此输入函数为一单值函数，其在有限频率范围内在零值附近震荡。此种限制频带型函数非常适合TESPAR分析。

一旦输入装置记录了语音波形，通常按序进行某种形式的预处理。该处理可以包含过滤该信号以除去在语音频宽之外的频率。针对使用隐藏式马尔可夫模型(HMM)方法的频率分析，该信号被分成短时间段(如10毫秒)。

TESPAR可在该信号已分成任何时间长度的情况下使用。因此，可以使用与隐藏式马尔可夫模型(HMM)类似的方式，将信号分成短时间段。或者，该信号可以被分成分开的单字、词组甚至句子。根据一些准则，可直接使用TESPAR来将信号分段。一个例子是寻找发音的尾点。如何实现此方法的一个例子是采用短时间段，并将每个时间段编码成‘S’矩阵。如果计算出每个时间段矩阵元素的和，其结果为指明在每个时间段中存在有多少声音的数向量。随后便可用来查寻声音与静音间的转变，因而找到发音的尾点。

在许多方法中的语音信号可能属于时间编码。现在将说明时间编码程序的一个例子。第一步骤是将要编码的信号在其信号通过零线处分段，被分割的这些段被称为时期(epochs)。每一时期根据其持续期间、在此持续期间内所出现的复数零值(complex zero)数以及该信号的最大幅度来分类。然后将清单中的时期指定给特定群组，并使用不同群组中的时期分配结果来描述被编码信号的特征。在一简单的例子中，这可以意味着将每一时期指定给群组是由其形状、持续期间以及大小来确定。然后使用每一群组中时期数量的简单一维直方图来描述信号的特征。

隐藏式的马尔可夫模型(HMM)可以接受输入信号的短时间段并对其进行傅里叶变换。然后，所得结果的频谱可用来将该时间段指定给一特定的次单音。这些声音的顺序可以馈送给此模型，并考虑每一个单字的可能输出。因此产生了单字的等级(ranking)，其指出哪一个字与所观察的语音波形最相似。一个可能的加强识别过程的方法是使用经时间编码的信号来提供额外的输入参数给隐藏式的马尔可夫模型(HMM)。使用已经过时间编码的信号来确定讲话者是谁，从而修正隐藏式的马尔可夫模型(HMM)参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新型转换器有限公司，未经新型转换器有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/00806783.X/2.html，转载请声明来源钻瓜专利网。

上一篇：抽屉式洗衣机及其洗涤衣物方法
下一篇：提供现场可编程系统级装置的软件工具

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别无效

专利文献下载