[发明专利]一种应用于语音数字信号的实时自动增益控制方法有效
申请号: | 202011030786.3 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112151047B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 曾庆宁;王师琦;王红丽;张硕 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L19/083 | 分类号: | G10L19/083;G10L21/02;G10L21/0208 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 语音 数字信号 实时 自动增益控制 方法 | ||
1.一种应用于语音数字信号的实时自动增益控制方法,其特征在于,所述方法是采用NLMS自适应滤波器为核心控制单元,通过增益控制信息、包络提取和增益平滑滤波器控制整个增益过程,包括如下步骤:
1)在语音流的处理过程中,接收到经过降噪、消回声和去混响处理过后的数字语音信号x(n)和语音活动检测VAD的结果v(n),每次处理的语音流以采样点为单位或以帧为单位,若语音流处理单位为样点,则系统的输入语音为x(n)=x(t)、VAD信息为v(n)=v(t),n代表当前时刻,t代表当前采样点;若语音流处理单位为帧,则输入语音和VAD信息分别为:
x(n)=max[X(l)],
v(n)=v(l),
其中,l代表当前帧,X(l)表示当前帧的采样点向量,max表示取向量的最大值;
2)对步骤1)接受到的语音信号x(n)做绝对值处理,并求得语音信号x(n)近似包络xenv(n);
3)将步骤2)中近似包络xenv(n)作为NLMS自适应滤波器的输入,根据步骤1)得到的VAD结果v(n)选择NLMS的目标参考值,将NLMS的自适应权重作为系统的快速增益gf(n),包括如下过程:
3-1)将步骤2)中得到的近似包络作为NLMS自适应滤波器的输入,根据步骤1)中接收到的VAD结果v(n)选取NLMS的参考值Ref,假设语音采样点的值为-1到1之间,当语音活动时,参考值Ref取0.001;当非语音时,参考值Ref取0.5;
3-2)所述NLMS自适应滤波器为一阶自适应滤波器,滤波器权重gf(n)即为系统的快速增益,快速增益的迭代公式为:
gf(n)=gf(n-1){1+μxenv(n)[Ref-yf(n-1)]},
yf(n)=gf(n)xenv(n),
步长根据自适应滤波器的输入的大小自适应调节,表达式为:
μ=μ0/(r+xenv(n)),
其中,初始步长μ0根据输入单位的采样点数设置,当以采样点输入时,μ0取0.1,r为避免分子过小而设置的,取0.0001;
4)根据步骤1)中的VAD信息和预设的最大增益阀值,调整步骤3)中系统的快速增益gf(n),过程为:
4-1)系统设置一个静默的限制时间Tl,根据步骤1)中接收的VAD结果v(n),若连续非语音时间超过Tl,则系统将切换为静默模式,Tl设置为1秒;
4-2)若系统处于静默模式,则将步骤3)中的快速增益gf(n)将直接设为1;
4-3)若系统不处于静默模式,且步骤3)得到的快速增益gf(n)大于最大增益阀值gmax,则将快速增益gf(n)设置为gmax;
5)将步骤4)中调整后的快速增益gf(n)输入自适应平滑滤波器得到系统的平滑增益g(n),自适应平滑滤波器的递归表达式为:
g(n)=αsg(n-1)+(1-αs)gf(n),
其中,fs为输入语音单位的采样率,自适应平滑滤波器的平滑时间ts设置的越小,增益的变化就越快,底噪变化也会变快,使得听感变得突兀,ts根据底噪的大小,设置在0.01秒到0.5秒之间;
6)将步骤5)中得到的系统平滑增益g(n)和步骤1)中的输入语音信号x(n)相乘,得到输出语音信号y(n),表达式如下:
y(n)=x(n)*g(n),
若语音流处理单位不是采样点而是帧,则整帧的采样点乘以g(n)并输出;
7)重复上述步骤1)至步骤6),将新的语音连续输入,最终实现实时的自动增益控制,在第一次运行时,需要初始值,将步骤2)中的近似包络xenv初值设为0、步骤3)的快速增益gf(n)初值设为1、步骤5)的平滑增益gf(n)初值设为1。
2.根据权利要求1所述的应用于语音数字信号的实时自动增益控制方法,其特征在于,步骤2)中所述的求得语音信号x(n)近似包络xenv(n)的过程为:先对步骤1)接收到的语音信号x(n)先求绝对值xabs(n),然后采用Attack/Release滤波器求得近似包络xenv(n),公式如下:
其中,n-1代表上一时刻,上升沿即Attack和下降沿即Release分别采用不同的滤波因子αEA和αER,滤波因子由平滑时间获得:
上升平滑时间tEA和下降平滑时间tER分别取0.001秒和1秒,fs为输入语音单位的采样率,若输入为采样点,则取值为语音采样率Fs;若输入为帧,则取值为:fs=Fs/L。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030786.3/1.html,转载请声明来源钻瓜专利网。