[发明专利]一种噪声条件下的语音检测方法有效
| 申请号: | 201010523408.9 | 申请日: | 2010-10-28 |
| 公开(公告)号: | CN101968957A | 公开(公告)日: | 2011-02-09 |
| 发明(设计)人: | 刘冠群;张汝波;李雪耀;徐东;杨歌;史长亭;刘佰龙;张子迎;尹清波;林俊宇 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G10L11/02 | 分类号: | G10L11/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 噪声 条件下 语音 检测 方法 | ||
技术领域
本发明涉及的是一种数字信号处理、计算机人工智能及模式识别技术,特别涉及利用计算机检测信号中语音的方法。
背景技术
语音检测的准确性在很大程度上决定着整个语音处理系统的性能.人们在语音检测方面做了大量的研究,提出了许多各种各样的方法.例如基于短时能量、短时谱能量、短时过零率等语音检测算法.但这些特征参数对背景噪声敏感,并不能很好刻画语音的特性.象短时能量和短时过零率,在信噪比较低时,就不足以区出语音和背景噪声.基于线性预测系数、倒谱系数和基音的语音检测算法,同样不能适用于复杂背景噪声下的语音检测.也有时频联合特征用于检测语音,其假设前提为语音在250-3500Hz频率范围内受噪声的影响很小,以及不同种类噪声频域能量集中在不同的频域子带内.时频联合特征参数由固定频带内的频域能量和时域能量组成.也有利用多子带技术分析含噪语音信号的,通过适应子带选择方法选择有用子带来消去噪声的影响,对时频联合特征参数进行改进,但这种方法本质上还是基于能量的,并且有用子带的选择依赖于整个信号.
关于语音检测方法的专利用较多,各有其优缺点。如申请号200310103263.7的专利文件中公开的《一种门限自适应的语音检测系统》能进行门限的自动更新,但需要进行模糊聚类处理和贝叶斯信息处理,因此需要较大的计算量,且没有考虑语音本身的特性,在背景噪声较为复杂和较低信噪比下的性能难以保证。载入如申请号为99104095.3的专利文件中公开的《用于噪声环境的语音检测系统》,进行了语音的子带划分,但只是分为高频段和低频段两部分,也没有考虑语音本身的频带特性。
发明内容
本发明的目的在于提出充分考虑的语音信号在频域中的特性,并据此提取检测特征,且噪声估计及检测阈值能够跟随噪声变化而变化的噪声条件下的语音检测方法。
本发明的目的是这样实现的:
1)将输入信号分帧,进行离散傅立叶变换,变换到频域,然后将整个频域,划分为多个等带宽的子带;
2)计算每帧信号的子带功率谱;
3)如果处于初始噪声估计和初始语音检测阈值估计阶段,则进行初始噪声估计和初始检测阈值处理,转到步骤1),否则转步骤4);
4)减去每个子带内的噪声能量,获得去噪后的子带功率谱;
5)计算每帧信号内各子带的功率谱的均方差;
6)将每帧信号的子带功率谱均方差与自适应检测阈值进行比较;
7)如果大于自适应检测阈值,则把当前帧判为候选语音帧,否则判为候选非语音帧;
8)根据步骤7)的检测结果,如果还没有确定语音段的起始位置,则应用适当策略进行精确的语音段的起始点和结束点定位;
9)根据步骤8)的结果,则对噪声估计和语音检测阈值进行更新;
10)重复步骤1)-9),直至检测结束。
作为人类特有的声音,语音信号在频谱上的能量分布具有自身所固有的特征,可以用其谱能量均方差作为特征与其他类型信号进行区分。而且谱均方差具有很好的抗噪性能,是一种鲁棒的特征参数。为了使子带谱均方差适应噪声变化,降低背景噪声对语音的子带谱均方差特征的影响,从而具有更好的抗噪性,可以对背景噪声进行估计,在提取语音的子带谱均方差过程中,消去噪声对语音的子带谱均方差的影响。
本发明将输入信号变换到频域,然后划成子带。再求各子带功率谱形成子带功率谱。求各帧的子带功率谱的均方差,以此作为检测特征与自适应的语音检测阈值进行比较,以确当前帧是否含有语音信号。根据检测结果,采用一定的端点确定策略,确定语音段的起始位置和结束位置。
附图说明
图1是语音检测方法流程图。
图2是初始噪声估计和初始检测阈值计算的流程图。
图3是语音段端点的确定流程图。
具体实施方式
下面结合附图举例对本发明做详细的描述:
语音检测方法的具体步骤为:
1)将输入信号分帧,变换到频域;
2)将频域划分为多个等带宽的子带,计算每帧信号的子带功率谱;
3)如果处于初始噪声估计和初始语音检测阈值估计阶段,则进行初始噪声估计和初始检测阈值处理,转到步骤1),否则转步骤3);
4)减去每个子带内的噪声能量,获得去噪后的子带功率谱;
5)计算每帧信号内各子带的功率谱的均方差;
6)将每帧信号的子带功率谱均方差与自适应检测阈值进行比较;
7)如果大于自适应检测阈值,则把当前帧判为候选语音帧,否则,判为候选非语音帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010523408.9/2.html,转载请声明来源钻瓜专利网。





