[发明专利]语音检测装置无效
| 申请号: | 94193436.5 | 申请日: | 1994-07-18 |
| 公开(公告)号: | CN1064159C | 公开(公告)日: | 2001-04-04 |
| 发明(设计)人: | B·K·莱维斯 | 申请(专利权)人: | 松下电器产业株式会社;语言技术实验室 |
| 主分类号: | G10L11/02 | 分类号: | G10L11/02 |
| 代理公司: | 上海专利商标事务所 | 代理人: | 张政权 |
| 地址: | 日本大阪*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 检测 装置 | ||
技术领域
本发明一般涉及检测输入音频信号中语音段的开始和结束之处的装置,在输入音频信号中还夹杂着非语音噪声或背景噪声。
背景技术
对于许多装置来说,语音的实时检测是必备的功能部件,这些装置不胜枚举,其中包括声音启动的磁带录音机、应答机器、自动语音识别机和用于从音乐中去除话音的处理器等等。在许多这样的应用场合下,噪声与语音密不可分地混合在一起。语音的检测需要更为高级的语音检测能力,简单的检测能级何时高于或低于预先设定阈值的常规装置提供的检测能力是不够的。
在自动语音识别领域,语音检测部件是极为关键的。在实际应用中,语音检测带来的错误要比谱型匹配带来的错误多,后者通常用来确定语音信号的内容。解决这个问题的一个途径是利用单词捕捉技术(word spotting technique),在该技术中识别器一直监听着特定的单词。但是如果语音检测没有预先进行单词捕捉,则可能会引起较高的整体错误率。
许多语音检测装置都基于输入信号的某个参数,例如能量、音调和零交汇点(zero crossing)。语音检测器的性能很大程度上取决于那个参数对于背景噪声的强壮度(robustness)。对于实时语音检测,必须能较快地从信号中提取那个参数。
发明内容
本发明的其中一个目标是提供一种能够以同步于信号输入的速度(即实时)工作的语音检测装置。
本发明的另一个目标是提供一种可以用普通的数字信号处理电路板来实现的语音检测装置。
本发明的另一个目标是提供一种对于夹杂有各种噪声的语音仍然有效的语音检测装置。
本发明的另一个目标是提供一种用于各种场合的语音检测装置,这些应用场合不胜枚举,其中包括孤立单词自动语音识别机、连续语音识别机(用来检测语句中词组之间的停顿)、声控磁带录音机、应答机器和对混录有背景噪声或音乐的话音进行处理的处理器。
通过提供一种检测输入信号中语音的装置达到了本发明的上述这些和其它目标,该装置包括:接收语音信号的装置;存储一个连续m秒间隔内的信号部分的装置;当接收到新的信号时更新所存储信号部分的装置;用于确定信号内有限频带能量平滑值(smoothed frequency band limited energy)的装置,它包含:用于确定与信号相关的频率的装置;用于选取信号中频率在预定范围内的部分的装置;用于确定所选取信号部分内总能量值的装置,所述总能量值为频带能量;以及用于平滑所述有限频带能量的装置,所得数值为有限频带能量平滑值;用于确定信号内所述有限频带能量平滑值的方差的装置;用于根据信号内所述有限频带能量平滑值方差和所述有限频带能量平滑值的先前历程确定信号内语音的开始和结束点的装置。
本发明利用有限频带能量平滑值的方差和有限频带能量的先前历程来检测信号内语音的开始和结束点。采用有限频带能量平滑值的方差是基于下述的观察,即对于复杂背景下的前台语音(诸如音乐背景烘托下歌唱家的声音),其能级在波动幅度相对较低的“噪声平台(noise floor)”上产生显著的波动。即使在背景噪声能级较高的情况,方法仍然有效。方差量化了能量的波动。
按照较佳实施例,装置利用汉明窗和傅利叶变换计算有限频带能量平滑值。方差作为时间的函数从移位寄存器内存储的有限频带能量平滑值计算出来。为了确定语音的开始和结束点,装置将有限频带能量平滑值与预先设定的能量阈值进行比较,将作为时间函数的方差与两个预先确定的阈值(上阈值和下阈值)进行比较,如果有限频带能量平滑值超过能量阈值,装置则初步确定语音已经开始。
但是,如果在经过一段规定的时间后方差值未能上升超过上阈值水平,则取消对语音开始的初步确认。从有限频带能量平滑值超过能量阈值到方差值超过上阈值的这一段时间内,装置将信号表征为处于开始(B)语音状态。一旦方差值超过上阈值水平,装置就将信号表征为处于语音(S)状态。最后,当方差值低于下阈值水平时确定为语音结束之处。
另一种办法是将有限频带能量的最近历程以及作为时间函数的方差输入精心设计的神经网络,神经网络的单值二进制输出确定语音是否继续下去。
采用比较方差上下阈值的方法,最大程度地减少了语音检测中的错误率。利用有限频带能级来初步确定语音开始点,最大程度地缩短了语音实际开始与语音检测装置作出反应之间的延时。通过利用神经网络来确定语音的存在,该装置可以检测出多种噪声中的语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社;语言技术实验室,未经松下电器产业株式会社;语言技术实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94193436.5/2.html,转载请声明来源钻瓜专利网。





