[发明专利]抗噪声语音识别用语音增强-特征加权-对数谱相加方法无效
| 申请号: | 02124144.9 | 申请日: | 2002-07-12 |
| 公开(公告)号: | CN1162838C | 公开(公告)日: | 2004-08-18 |
| 发明(设计)人: | 曹志刚;许涛 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/20 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100084北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法属于语音识别技术领域,其特征是:它是一种融合多空间抗噪声语音识别技术,即MMSE-FW-LA的方法,它根据短时段语音各维特征提取空间的局部信噪比,给出特征的置信度估计,即权重,并修改识别算法,把权重信息代入识别过程。尤其是前端语音增强技术、特征加权和对数谱相加模型补偿算法分别针对噪声在信号、特征和模型空间造成的失配进行处理,整体提高了语音识别系统的抗噪声性能。在SNR为-5dB的高斯白噪声和汽车噪声的强背景噪声环境下,识别率达到80%,且前端增强和特征权重估计相互融合,选用了计算量较低的MMSE法,模型补偿也不需对噪声模型进行离线估计。 | ||
| 搜索关键词: | 噪声 语音 识别 用语 增强 特征 加权 对数 相加 方法 | ||
【主权项】:
1.抗噪声语音识别用语音增强—特征加权—对数谱相加方法,含有计算机上运行的语音增强—对数谱相加方法,其特征在于,它依次含有以下步骤:(1).初始化Mel滤波器组在各线性频点k上的抽头系数Hm(k),以及对数谱特征与MFCC特征的转换矩阵Tr和Tr-1:其中k=1,2,..,Nfft//2,Nfft是FFT的频点数;m=1,2,..,M,M是Mel滤波器的个数;(2).输入含噪语音和纯净语音经训练得到的模型参数:μc:纯净语音训练得到的模型状态在MFCC倒谱域下的静态特征均值;Δμc:纯净语音训练得到的模型状态在MFCC倒谱域下的动态特征均值;(3).分帧、加窗:若采样后的原始语音为y(n),汉明窗在第n个采样点上的系数:h ( n ) = 0.54 - 0.46 cos ( 2 πn N - 1 ) , n = 1 , · · · , N ]]> N等于帧长,则分帧后的原始语音信号为:y ( n , t ) = y ( N × ( t - 1 ) 2 + n ) , n = 1 , · · · , N ]]> t表示帧号,加上汉明窗后的原始语音信号为:yw(n,t)=y(n,t)×h(n),n=1,…,N(4).快速傅立叶变换FFT:由于语音短时频谱对感知语音起决定性的作用,利用FFT逐帧将语音变换到频谱域:Y ‾ ( k , t ) = Y ( k , t ) e ∠ Y ‾ ( k , t ) = FFT { y w ( n , t ) } , k = 1 , . . . , N fft ]]> Nfft是FFT变换的点数;(5).噪声帧检测和噪声谱幅度估计:(5.1).设定前10帧起始段含噪语音为噪声帧,输入当前第t帧含噪语音的短时谱幅度;(5.2).若当前帧为起始段噪声帧,则前t帧噪声功率谱幅度的估计值为:D ~ p ( k , t ) = [ Σ s = 1 t Y ( k , s ) / t ] 2 ]]> 并在当前帧为第10帧时输出起始段噪声谱幅度的估计值:N ( k ) = Σ s = 1 10 Y ( k , s ) / 10 ]]> 计算用于区分噪声帧和含噪语音帧的判决门限χ:x = Max t = 1,2 , . . . , 10 { Σ k = 1 N fft / 2 + 1 Pow [ Y ( k , t ) / N ( k ) , 5 ] } ]]> (5.3).若当前帧不是起始段噪声帧,则当前帧t的判决值:ρ = Σ k = 1 N fft / 2 + 1 Pow [ Y ( k , t ) / N ( k ) , 5 ] ]]> (5.3.1)若ρ<χ,则判决为含噪语音中的噪声帧,其噪声功率谱幅度估计值为:D ~ p ( k , t ) = 0.98 × D ~ p ( k , t - 1 ) + 0.02 × Y p ( k , t ) ]]> 并输出;(5.3.2).若ρ≥χ,则判决为非噪声帧,即含有噪声的语音帧,其噪声功率谱幅度为:D ~ p ( k , t ) = D ~ p ( k , t - 1 ) ]]> 并输出;(6).用取决于先验信噪比ζ和后验信噪比γ的谱幅度增益系数G(k,t)计算纯净语音短时谱幅度的估计值,以及相应的第t帧第m个对数谱特征的权重wm(t):(6.1).输入当前第t帧含噪语音的短时谱幅度;(6.2).计算当前帧t第k个频点的后验信噪比γ ( k , t ) = Y p ( k , t ) / D ~ p ( k , t ) , ]]> Yp(k,t)为含噪语音的功率谱幅度,
为估计的噪声功率谱幅度;(6.2.1).如果当前帧t=1,则初始化当前帧第k个频点的先验信噪比为ζ(k,t)=0.1;(6.2.2).如果当前帧t>1,则利用上一帧的先验和当前帧的后验信噪比,通过滑动平均估计得到当前帧第k个频点的先验信噪比:ζ(k,t)=0.98×ζ(k,t-1)+0.02×[γ(k,t)-1](6.3).当前帧t第k个频点的谱幅度增益系数:G ( k , t ) = 1 2 πξ ( k , t ) γ ( k , t ) ( 1 + ξ ( k , t ) ) Ψ ( - 0.5 ; 1 ; - γ ( k , t ) ξ ( k , t ) 1 + ξ ( k . t ) ) ]]> 利用级数求和,计算得到:Ψ ( a 1 , a 2 , a 3 ) = 1 + a 1 a 2 a 3 1 + a 1 ( a 1 + 1 ) a 3 2 a 2 ( a 2 + 1 ) 2 ! + · · · ]]> 其中a1=-0.5,a2=1,a 3 = - γ ( k , t ) ξ ( k , t ) 1 + ξ ( k , t ) ]]> (6.4).相应的纯净语音短时谱幅度的估计值为:X ^ ( k , t ) = G ( k , t ) Y ( k , t ) ]]> (6.5).重新计算当前帧第k个频点的先验信噪比:ξ ( k , t ) = | X ^ ( k , t ) | 2 / D ~ p ( k , t ) ]]> (6.6).计算完当前帧t第k个频点(1≤k≤Nfft/2+1)的G(k,t)、
和ζ(k,t)值;(6.7).计算当前帧t第m个对数谱特征的权重:w m ( t ) = Σ k = 1 N fft / 2 G ( k , t ) H m ( k ) / Σ k = 1 N fft / 2 H m ( k ) ]]> (6.8).计算当前帧共M个对数谱特征的的权重,M是对数谱特征的维数;(6.9).计算完t=1,2,...,T各帧中的
和Wm(t);(6.10).输出所有相应的纯净语音短时谱幅度估计值
和对数谱特征的权重wm(t);(7).MFCC特征提取(7.1).输入纯净语音短时谱幅度估计值
(7.2).计算功率谱:X ^ p ( k , t ) = | X ^ ( k , t ) | 2 , k = 1 , . . . , N fft ; ]]> (7.3).Mel滤波:MBank ( m , t ) = Σ k = 1 N fft / 2 H m ( k ) × X ^ p ( k , t ) , m = 1 , . . . , M ]]> (7.4).对数谱特征:FBank(m,t)=log(MBank(m,t)),m=1,..,M(7.5).DCT倒谱表示:c ~ ( r , t ) = α ( r ) Σ m = 1 M FBank ( m , t ) cos ( π ( 2 m - 1 ) ( r - 1 ) 2 M ) , r = 1 , . . . , M ]]> 其中α ( 1 ) = 1 M , α ( r ) = 2 M , ]]> r=2,…,M,并取前R维特征矢量(7.6).倒谱加权:c ( r , t ) lifter ( r ) × c ~ ( r , t ) , r = 1 , · · · , R ]]> 其中lifter ( r ) = 1 + L 2 sin ( π ( r - 1 ) L ) , ]]> r=1,…,R,L为加权滤波器宽度;(7.7).计算动态系数:Δc ( r , t ) = Σ Δt = - 2 2 Δtc ( r , t + Δt ) / 10 , ]]> Δt表示帧间距;(7.8).输出c(r,t)和Δc(r,t);(8).判断待识别语句是否输入完毕t=T(9).若判断为待识别语句已经输入完毕,则计算噪声帧,即剩余噪声的静态MFCC特征平均值,剩余噪声的定义如下:d ^ ( n ) = x ^ ( n ) - x ( n ) ]]> 其中x(n)表示纯净语音在第n个样点上的值,
表示x(n)增强后的估计值;由于剩余噪声存在于各个语音帧,而语音仅存在于非噪声帧,所以对于噪声帧来说,D ^ ( k , t ) = X ^ ( k , t ) , ]]> 即剩余噪声的短时谱幅度在各噪声帧中等于增强后语音的短时谱幅度,我们可以利用下式计算剩余噪声的静态MFCC特征均值:
其中噪声帧包括起始段10帧和后面判决的噪声帧,r=1,2,..,R;(10).Log-Add对数谱相加模型补偿:(10.1).输入剩余噪声的MFCC特征均值并转换到对数谱域μ n l = Tr - 1 μ n c ; ]]> (10.2).输入纯净语音训练模型的状态均值,并转换到对数谱域μl=Tr-1μc,Δμl=Tr-1Δμc;(10.3).Log-Add模型补偿:μ ^ m l = μ m l + log ( 1 + exp ( μ m l - μ m l ) ) , m = 1,2 . . . , M ]]>Δ μ ^ m l = Δμ m l 1 + exp ( μ nm l - μ m l ) ]]> (10.4).把补偿的模型状态转换到MFCC倒谱域μ ^ c = Tr μ ^ l , ]]>Δ μ ^ c = TrΔ μ ^ l ; ]]> (10.5).当状态输入完毕,输出剩余噪声补偿后的语音模型;(11).特征加权的维特比识别译码:(11.1).输入剩余噪声补偿后的语音模型、增强语音当前帧MFCC特征ytc、对数谱特征权重wm(t);(11.2).计算观测帧在候选状态下的对数概率似然值:(11.2.1).在MFCC倒谱域计算MFCC特征与可选状态的状态均值的矢量差:dc=ytc-uc;(11.2.2).把差矢量变换到对数谱特征域:dl=Tr-1dc;(11.2.3).在对数谱域进行加权,并变换回MFCC倒谱域d → c = Tr Wd l ; ]]> (11.2.4).计算对数概率似然值:log ( p ( y t c | q ( t ) = i ) ) = C ( Σ c ) - 1 / 2 d → cT ( Σ c ) - 1 d → c ]]> 其中∑c为倒谱域的状态方差矩阵,且为对角阵∑c=Diag{σi1,σi2,..,σir..},c表示倒谱域,i表示状态;c(∑c)表示与ytc无关的常数项,对应- Σ r = 1 R log ( 2 π σ ir ) , ]]> R是倒谱特征的维数;(11.3).初始化Viterbi译码后,再迭代,计算完t=1,2,...,T帧;(11.4).计算最大概率p * = max 1 ≤ i ≤ N [ δ T ( i ) ] ]]> 和最佳路径的终止状态:q ^ ( T ) = arg max 1 ≤ i ≤ N [ δ T ( i ) ] ; ]]> (11.5)通过回溯依次输出最佳路径上的其他状态:
(12).输出识别结果,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/02124144.9/,转载请声明来源钻瓜专利网。
- 上一篇:具有麦克风阵列的语音控制系统
- 下一篇:产生声学模型的方法和装置





