[发明专利]语音识别装置、语音识别方法及语音识别程序有效

申请号：	01801963.3	申请日：	2001-07-09
公开（公告）号：	CN1386265A	公开（公告）日：	2002-12-18
发明（设计）人：	川根友惠;金森丈郎	申请（专利权）人：	松下电器产业株式会社
主分类号：	G10L21/02	分类号：	G10L21/02;H03G3/20
代理公司：	上海专利商标事务所	代理人：	孙敬国
地址：	日本国大***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别装置方法程序
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及对说话者发出的语音进行识别的语音识别装置、语音识别方法及语音识别程序。

背景技术

近年来，关于语音识别技术的发展非常迅速。所谓该语音识别，是指计算机或机械等自动理解人的语音。例如，通过利用该语音识别，使计算机或机械能够根据人的语音进行动作，或者能够使人的语音变换为文字。

在语音识别中主要采用的方法是，抽取发出的语音所具有的频谱等物理特征，与预先存储的母音、子音或单词的物理特征模型进行比较。但是，在对许多不确定说话者进行语音识别时，由于说话者各自的个人差是造成语音所具有的物理特征差异的主要原因，因而不能进行正确的语音识别。另外，在对确定说话者进行语音识别时，也由于昼夜等周围环境的变化而产生的噪声(干扰)或者由于说话者身体状况等而引起语音所具有的物理特征的变化，成为进行语音识别时使识别率下降的主要原因，因而不能进行正确的语音识别。

图13所示为进行语音识别时声级与识别率的关系的一个例子的示意图。图13所示的示意图中，纵轴表示识别率(％)，横轴表示声级(dB)。这里所谓声级意味着声能级，例如0dB是指负载电阻为600Ω，端电压为0.775V，功耗为1mW。

如图13所示，在以往的语音识别中，在声级低于-19dB或声级高于-2dB时，识别率有下降的趋势。

在以往的语音识别中，在预先存储有母音、子音或单调的物理特征模型的声级时，在声级附近的识别率高，即由于是将预先存储的声级与输入的声级进行比较来进行语音识别的，因此在声级从低到高的情况下，不能平均得到高的识别率。

因此在日本专利实开昭59-60700号公报中揭示了一种语音识别装置，它是在输入语音时使用的微型放大器中采用AGC电路(Auto Gain Controller：自动增益控制电路)，始终保持输入的声级近似一定。另外，在日本专利实开平01-137497号公报及特开昭63-014200号公报揭示了一种语音识别装置，它是利用适当的手段使说话者知道声级，并促使其以最佳的声级进行发声。

但是，在实开昭59-60700号公报所揭示的语音识别装置中，有的情况下利用AGC电路使不应该放大语音以外的噪声(干扰)也被放大，由于放大的噪声使识别率降低。再有，输入的语音中，每个单词存在表示语言的抑扬顿挫的语调。因此，通过利用AGC电路频繁地将输入的声级放大或不放大，在放大为近似一定声级的语音波形要产生失真。由于该语音波形失真，则表示每个单词所包含的语言抑扬顿挫的声调产生失真，使识别率下降。

另一方面，在实开平01-137497号公报及特开昭63-014200号公报所揭示的语音识别装置中，有的情况下由于周围环境的变化或说话者本身的身体状况不良等影响，由说话者输入的声级达不到预定的规定值，另外也有的情况下，即使说话者的发声达到预定的规定声级，语音识别装置也不识别。例如有的情况下，由说话者发出的声级具有个人特有的物理特征，若勉强使其改变发声，则物理特征变为不同的特征。因而使语音识别率下降。

发明揭示

本发明的目的是提供能够不受说话者声级影响、提高语音识别的识别率的语音识别装置、语音识别方法及语音识别程序。

本发明的一个方面的语音识别装置具有输入数字语音信号的输入手段、在利用输入手段输入的语音区间内根据一部分时间内的数字语音信号推定语音区间的声级的声级推定手段、根据利用声级推定手段推定的声级及预先设定的目标声级调整利用输入手段输入的语音区间数字语音信号声级的声级调整手段、以及根据利用声级调整手段调整的数字语音信号进行语音识别的语音识别手段。

在本发明的语音识别装置中，利用输入手段输入数字语音信号，在利用输入手段输入的语音区间内根据预定时间的数字语音信号，利用声级推定手段推定语音区间的声级。根据利用声级推定手段推定的声级及预先设定的目标声级，利用声级调整手段在利用输入手段输入的语音区间内调整数字语音信号的声级，再根据利用声级调整手段调整的数字语音信号，利用语音识别手段进行语音识别。

在这种情况下，根据语音区间内的一部分时间的数字语音信号，推定整个语音区间的声级，根据推定的声级及预先设定的目标声级，将语音区间的数字语音信号的声级调整为一致。这样，能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真，进行语音识别。因而能够提高语音识别的识别率。

声级推定手段也可以在利用输入手段输入的语音区间内，根据最初的规定时间内的数字语音信号，推定语音区间的声级。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社，未经松下电器产业株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/01801963.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于具有高温超导励磁绕组的转子的低温冷却系统
下一篇：铁芯转子所支撑的高温超导线圈

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别装置、语音识别方法及语音识别程序有效

专利文献下载