[发明专利]一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法有效
申请号: | 201210513075.0 | 申请日: | 2012-12-04 |
公开(公告)号: | CN103021420A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 刘文举;李超 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相位 调整 补偿 多子带谱 减法 语音 增强 方法 | ||
技术领域
本发明涉及语音信号处理领域,特别是一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法。
背景技术
谱减法是历史上最早被提出来用于噪声消除的语音增强算法(参考文献1:S.F.Boll,“Suppression of the acoustic noise in speech using spectral subtraction”,IEEE Tran.Acoust.Speech Signal Process.27(2),113-120,1979),也是应用最为广泛的算法之一。它基于一个基本的理论:对于加性噪声,我们可以从带噪语音的离散傅里叶变换(Discrete Fourier Transform,DFT)的频谱中减去噪声频谱来获得语音频谱的估计。噪声频谱可以通过无声段来估计和更新。对估计的语音频谱进行离散傅里叶逆变换(Inverse Discrete Fourier Transform,IDFT)就可以得到增强后语音时域波形。谱减法只需要进行DFT和IDFT,计算复杂度低,实现简单。
谱减法主要分为一阶谱减(即幅值谱减)和二阶谱减(即功率谱减)。无论哪种形式的谱减法,在设计时都应当非常小心,以避免引入语音畸变。如果被减去部分大于噪声,语音信息将会丢失;反之,如果被减去部分小于噪声,就会有过多的噪声残留。研究者们相继提出了许多改进算法来削弱(乃至消除)谱减过程中引入的语音畸变。
与谱减法实现简单的特点相对应的是它也有不少缺陷。其中,最主要的缺陷来自音乐噪声。由于噪声估计误差和频谱扰动的存在,带噪信号在某些频带上的幅值会小于噪声的估计幅值,从而使相减之后的估计语音频谱出现负值。最简单的办法是将这些小于零的值置零,从而使全频带的频谱幅值都为非负数。然而,这种对负值的非线性操作会在频带上制造出许多的孤立峰。这些孤立峰在时域和频域都表现出极强的随机性,尽管其幅值不大,但影响却很严重。在时域,这些孤立峰听起来像是单音调的乐音,而且其音调(频率)在帧与帧之间随机变化,从而产生一种新型的噪声,其经常被称为音乐噪声(musical noise)。在很多时候,音乐噪声比原始噪声更加让人讨厌。产生音乐噪声的另一个重要因素是带噪语音和噪声的频谱在估计时的大方差,及不同时频点上谱减规则的巨大差异。
语音噪声之所以在传统谱减法中难以克服,是因为谱减法基于这样一个规则:由语音信号频谱与噪声频谱产生的交叉项可以被忽略。这个规则符合长时统计的观点:由于语音和噪声是相互独立的随机过程,所以其交叉项的期望值应该等于零。然而,在语音增强算法实现中,每一帧的长度只有20-30ms左右,在如此短的时间里,这个规则难以成立(参考文献2:N.Evans,J.Mason,W.Liu,and B.Fauve,“An assessment on the fundamental limitations of spectral subtraction”.Proc.IEEE Internat.Conf.on Acoustics,Speech,Signal Processing(ICASSP),2006)。所以,谱减法的公式只是一种近似而非准确。研究者们已经做了许多努力来调查交叉项的影响,但这些研究主要面向如何提高自动语音识别(Automatic Speech Recognition,ASR)的性能,而不是语音质量。
发明内容
(一)要解决的技术问题
谱减法中音乐噪声的根本来源是交叉项误差,本发明的目的在于克服交叉项误差的不利影响,提出零误差下的幅值谱减方法,以彻底消除音乐噪声。
(二)技术方案
本发明为解决上述技术问题,提出了一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法,该方法包括下列步骤:
步骤a:采集带噪语音信号y(k),获得所述带噪语音信号y(k)的幅值谱αy(ω),其中,k表示离散时间点,ω表示离散频点;
步骤b:利用相位调整算法对带噪语音的幅值谱进行微距最大值搜索,获得纯净语音信号与加性噪声信号之间的相位差为0时的带噪语音幅值谱
步骤c:利用噪声估计算法更新加性噪声幅值谱
步骤d:利用过减规则系数和加性噪声幅值谱对所述带噪语音幅值谱进行幅值谱减,得到纯净语音幅值谱
步骤e:利用二阶幅值补偿因子和预设的一阶幅值补偿因子,对纯净语音幅值谱进行补偿,得到增强后的纯净语音幅值谱进而得到增强后的纯净语音信号
(三)有益效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210513075.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大坝浇筑控制系统
- 下一篇:一种基于农业物联网试验田水况监测系统