[发明专利]基于二次谱减法的复杂噪声背景下的语音识别方法和系统在审
申请号: | 202210711617.9 | 申请日: | 2022-06-22 |
公开(公告)号: | CN115132219A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 邵鹏志;谢志豪;王乃正;孟英谦;彭龙;李胜昌;宋彪;邬书豪;李泽宇;张世超;魏中锐;任智颖;葛祥雨;胡明哲;霸建民;高圣楠;张敏 | 申请(专利权)人: | 中国兵器工业计算机应用技术研究所 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L15/04 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 庞许倩 |
地址: | 100089*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 二次 减法 复杂 噪声 背景 语音 识别 方法 系统 | ||
1.一种基于二次谱减法的复杂噪声背景下的语音识别方法,其特征在于,包括如下步骤:
基于复杂噪声背景下的含噪历史音频和纯净噪声音频,得到所述复杂噪声背景的历史噪声估计;
对复杂噪声背景下的待识别音频进行分帧处理,得到多帧音频;
依次对每帧音频进行处理,得到降噪后的语音;其中,对当前帧音频处理,包括:基于所述历史噪声估计和当前帧音频的噪声估计,对所述当前帧音频进行二次谱减,得到所述当前帧音频降噪后的语音频谱。
2.根据权利要求1所述的语音识别方法,其特征在于,所述基于复杂噪声背景下的含噪历史音频和纯净噪声音频,得到所述复杂噪声背景的历史噪声估计,包括:
分别对每条所述含噪历史音频分帧,处理后得到含噪历史音频每帧信号的功率谱;
选取每条音频上功率谱最低的预设数量帧的音频作为纯噪声,估计得到每条含噪历史音频的噪声的每一帧平均功率谱Bi(ω),其中,i=1,2,3,……,n,n表示含噪历史音频的条数;
对每条所述纯净噪声音频分帧,处理后得到每条纯净噪声音频每帧的平均噪声功率谱Bj(ω),其中,j=1,2,3,……,k,k表示纯净噪声音频的条数;
将Bi(ω)和Bj(ω)取平均值得到所述历史噪声估计
3.根据权利要求2所述的语音识别方法,其特征在于,所述当前帧音频的噪声估计,包括:
选取所述待识别音频中功率谱最低的预设数量帧的音频作为纯噪声;基于所述纯噪声估计待识别音频的每一帧的噪声平均功率谱即当前帧音频的噪声估计。
4.根据权利要求3所述的语音识别方法,其特征在于,利用下述公式对所述当前帧音频进行二次谱减,得到当前帧音频的功率谱估计,即所述当前帧音频降噪后的语音频谱:
其中,表示当前帧音频的功率谱估计,m表示当前帧音频的序号,Yn+1(ω,m)表示当前帧音频的频谱,ψn+1(ω,m)表示当前帧音频的相位信息;αm、βm分别是历史噪声移除因子和当前帧音频噪声移除因子;bm是音频信号最低频谱因子。
5.根据权利要求4所述的语音识别方法,其特征在于,利用下述公式计算得到所述αm、βm和bm:
其中,c为常数,ξm为所述当前帧音频信号频域的后验信噪比;αmin、αmax分别表示αm的最小值和最大值;βmin、βmax分别表示βm的最小值和最大值;bmin、bmax分别表示bm的最大值和最小值。
6.根据权利要求5所述的语音识别方法,其特征在于,利用下述公式计算得到所述ξm:
其中,k为频点,∑k|Yn+1(ωk,m)|表示所述当前帧音频频谱强度,表示所述历史噪声估计的频谱强度。
7.根据权利要求6所述的语音识别技术,其特征在于,对所述αm、βm和bm的最大值和最小值做出限制,包括
αmax=3,αmin=1,βmax=3,βmin=1,bmax=0.1,bmin=0.02。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国兵器工业计算机应用技术研究所,未经中国兵器工业计算机应用技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210711617.9/1.html,转载请声明来源钻瓜专利网。