[发明专利]一种应用于语音数字信号的实时自动增益控制方法有效

申请号：	202011030786.3	申请日：	2020-09-27
公开（公告）号：	CN112151047B	公开（公告）日：	2022-08-05
发明（设计）人：	曾庆宁;王师琦;王红丽;张硕	申请（专利权）人：	桂林电子科技大学
主分类号：	G10L19/083	分类号：	G10L19/083;G10L21/02;G10L21/0208
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用于语音数字信号实时自动增益控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用于语音数字信号的实时自动增益控制方法，其特征在于，所述方法是采用NLMS自适应滤波器为核心控制单元，通过增益控制信息、包络提取和增益平滑滤波器控制整个增益过程，包括如下步骤：

1)在语音流的处理过程中，接收到经过降噪、消回声和去混响处理过后的数字语音信号x(n)和语音活动检测VAD的结果v(n)，每次处理的语音流以采样点为单位或以帧为单位，若语音流处理单位为样点，则系统的输入语音为x(n)＝x(t)、VAD信息为v(n)＝v(t)，n代表当前时刻，t代表当前采样点；若语音流处理单位为帧，则输入语音和VAD信息分别为：

x(n)＝max[X(l)]，

v(n)＝v(l)，

其中，l代表当前帧，X(l)表示当前帧的采样点向量，max表示取向量的最大值；

2)对步骤1)接受到的语音信号x(n)做绝对值处理，并求得语音信号x(n)近似包络x_env(n)；

3)将步骤2)中近似包络x_env(n)作为NLMS自适应滤波器的输入，根据步骤1)得到的VAD结果v(n)选择NLMS的目标参考值，将NLMS的自适应权重作为系统的快速增益g_f(n)，包括如下过程：

3-1)将步骤2)中得到的近似包络作为NLMS自适应滤波器的输入，根据步骤1)中接收到的VAD结果v(n)选取NLMS的参考值Ref，假设语音采样点的值为-1到1之间，当语音活动时，参考值Ref取0.001；当非语音时，参考值Ref取0.5；

3-2)所述NLMS自适应滤波器为一阶自适应滤波器，滤波器权重g_f(n)即为系统的快速增益，快速增益的迭代公式为：

g_f(n)＝g_f(n-1){1+μx_env(n)[Ref-y_f(n-1)]}，

y_f(n)＝g_f(n)x_env(n)，

步长根据自适应滤波器的输入的大小自适应调节，表达式为：

μ＝μ₀/(r+x_env(n))，

其中，初始步长μ₀根据输入单位的采样点数设置，当以采样点输入时，μ₀取0.1，r为避免分子过小而设置的，取0.0001；

4)根据步骤1)中的VAD信息和预设的最大增益阀值，调整步骤3)中系统的快速增益g_f(n)，过程为：

4-1)系统设置一个静默的限制时间T_l，根据步骤1)中接收的VAD结果v(n)，若连续非语音时间超过T_l，则系统将切换为静默模式，T_l设置为1秒；

4-2)若系统处于静默模式，则将步骤3)中的快速增益g_f(n)将直接设为1；

4-3)若系统不处于静默模式，且步骤3)得到的快速增益g_f(n)大于最大增益阀值g_max，则将快速增益g_f(n)设置为g_max；

5)将步骤4)中调整后的快速增益g_f(n)输入自适应平滑滤波器得到系统的平滑增益g(n)，自适应平滑滤波器的递归表达式为：

g(n)＝α_sg(n-1)+(1-α_s)g_f(n)，

其中，f_s为输入语音单位的采样率，自适应平滑滤波器的平滑时间t_s设置的越小，增益的变化就越快，底噪变化也会变快，使得听感变得突兀，t_s根据底噪的大小，设置在0.01秒到0.5秒之间；

6)将步骤5)中得到的系统平滑增益g(n)和步骤1)中的输入语音信号x(n)相乘，得到输出语音信号y(n)，表达式如下：

y(n)＝x(n)*g(n)，

若语音流处理单位不是采样点而是帧，则整帧的采样点乘以g(n)并输出；

7)重复上述步骤1)至步骤6)，将新的语音连续输入，最终实现实时的自动增益控制，在第一次运行时，需要初始值，将步骤2)中的近似包络x_env初值设为0、步骤3)的快速增益g_f(n)初值设为1、步骤5)的平滑增益g_f(n)初值设为1。

2.根据权利要求1所述的应用于语音数字信号的实时自动增益控制方法，其特征在于，步骤2)中所述的求得语音信号x(n)近似包络x_env(n)的过程为：先对步骤1)接收到的语音信号x(n)先求绝对值x_abs(n)，然后采用Attack/Release滤波器求得近似包络x_env(n)，公式如下：

其中，n-1代表上一时刻，上升沿即Attack和下降沿即Release分别采用不同的滤波因子α_EA和α_ER，滤波因子由平滑时间获得：

上升平滑时间t_EA和下降平滑时间t_ER分别取0.001秒和1秒，f_s为输入语音单位的采样率，若输入为采样点，则取值为语音采样率F_s；若输入为帧，则取值为：f_s＝F_s/L。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011030786.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种检测沙门氏菌抗体的ELISA试剂盒及其检测方法和用途
下一篇：一种直播数据生成方法、显示设备及服务器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种应用于语音数字信号的实时自动增益控制方法有效

专利文献下载