[发明专利]一种基于子带噪声分析的自适应降噪方法与系统有效
申请号: | 201410106985.6 | 申请日: | 2014-03-21 |
公开(公告)号: | CN103871421B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 梁维谦;薛行栋 | 申请(专利权)人: | 厦门莱亚特医疗器械有限公司 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L21/0224;G10L19/02 |
代理公司: | 厦门市精诚新创知识产权代理有限公司35218 | 代理人: | 戚东升 |
地址: | 361000 福建省厦门市湖*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 噪声 分析 自适应 方法 系统 | ||
技术领域
本发明涉及语音技术领域,具体涉及一种基于子带噪声分析的自适应降噪方法与系统。
背景技术
在语音通信与录制领域,背景噪声是影响声音音质与辨识度的最大障碍。通过网络与亲友视频聊天时会有电脑的“嗡嗡”声;录制课堂讲座时会有写字声与学生们的闲聊声;户外做采访时道路交通噪声以及风噪声等,日常生活中我们离不开这些噪声。
为了提高采集声音信号的音质,信噪比,以及可懂度,国际上已经研究出了很多降噪算法,可分为两大类。一种是通过多路麦克风输入在空间上选取目标声源的方式,叫指向性麦克风技术。另一种是单麦克风输入,通过语音信号和干扰噪声信号的频谱特性差异,滤除噪声信号,提高信噪比。理论上,指向性麦克风方式的降噪效果要比单麦克风降噪算法要好,目前已经有很多笔记本电脑,平板电脑,部分智能手机均采用这类技术。但是,一个产品同时要配置多路麦克风的技术实现需求,在高集成度的迷你产品的研发中受到限制,同时也会提高生产成本,且运算复杂度较高,不适于如数字助听器等极低功耗系统的应用。
一般我们会通过以下方式进行单麦克风降噪。第一类是通过自适应增益调节进行噪声判断,并进行衰减,其中最为典型的算法为低增益扩展降噪算法,如图1所示,如果当前输入的声压级小于扩展临界值,即输入处于扩展阈的范围内,则判断为噪声,并进行增益衰减;如果输入声压级大于此临界值进行线性输出,或进行增益压缩。第二类是通过语音激活检测(Voice Activity Detection)等方式对信号进行语音段与噪声段的分类。此算法自动平均噪声段的信号能量,并在判断为噪声段的信号进行相应衰减,得到降噪效果。第三类为通过自适应滤波器的方式进行降噪,如图2所示。自适应滤波器以系统输出信号无限接近于原信号为条件进行收敛。在实际应用中,因为我们得不到原信号,通常使用实际输入信号与长时能量的差值代替原信号进行收敛,其中长时能量代表噪声等级。
上述三类降噪方式均有相应的降噪效果,但都存在缺陷。第一类降噪方式只能应用于噪声能量明显小于信号能量的场景,而能量较小的语音信号会被误认为噪声,因此被衰减。第二类的降噪方式效果要好于第一类,但在噪声段存在明显的音乐噪声(Musical noise)。第三类的降噪算法比前两类更为复杂,但自适应滤波器方法由于收敛关系会影响输出音质,也就是说收敛速度越快会提高降噪效果,但同时会降低音质,同时也存在滤波器发散的危险。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种自适应降噪算法,要求较高的降噪效果同时保证输出音质。
发明内容
为了解决上述技术问题,本发明提供了一种基于子带噪声分析的自适应降噪方法,可以大幅度降低目标信号中的类稳定噪声,同时提供几乎无失真(经过40dB以上的放大处理仍无听感失真)的语音音质,本发明的方法在多种噪声环境下,均能提供较好的降噪效果。
为了达到上述目的,本发明所采用的技术方案是,一种基于子带噪声分析的自适应降噪方法,包括以下步骤:
步骤1,对输入的时域带噪音频信号进行分帧和短时频域变换,生成频域带噪音频信号;
步骤2,对频域带噪音频信号,采用最小值跟踪方法(Minimum Tracking)估计出噪声能量谱;
步骤3,计算出该噪声能量谱的后验信噪比和先验信噪比;
步骤4,通过非线性增益扩展方法,利用所述的后验信噪比和先验信噪比计算步骤1所述的带噪音频信号的降噪增益;
步骤5,对所述的各个时频单元的降噪增益进行平滑滤波,以降低音质失真;
步骤6,将所述的平滑滤波后的降噪增益与步骤1所述的频域带噪音频信号的各个时频单元相乘,得到降噪后的频域音频信号;
步骤7,对步骤6所述的降噪后的频域音频信号进行短时频域逆变换,得到最终的降噪后的时域音频信号输出。
进一步的,所述步骤1中,短时频域变换为加权重叠相加分析算法。
进一步的,所述步骤7中,短时频域逆变换为加权重叠相加合成算法。
进一步的,所述步骤2中,所述最小值跟踪方法包括以下步骤:
步骤21:计算短时频域变换后的带噪音频信号Sin(n,k)的能量谱|Sin(n,k)|2的短时最大值PST_max(n,k),如式(1)所示,
其中n代表时间帧,k代表频域子带(一个子带可是单个频段也可由多个相邻的频段构成),T1代表短时帧数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门莱亚特医疗器械有限公司,未经厦门莱亚特医疗器械有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410106985.6/2.html,转载请声明来源钻瓜专利网。