[发明专利]一种联合语音增强的语音活动检测方法在审
申请号: | 202110292283.1 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113113049A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 张晓雷;谭旭;陈益江 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/84;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 语音 增强 活动 检测 方法 | ||
1.一种联合语音增强的语音活动检测方法,其特征在于,包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入;
SE解码器生成纯净语音信号s的估计值
VAD解码器生成VAD分数,在VAD解码器后面增加Sigmoid函数,将VAD解码器的输出限制在0和1之间,输出为表示语音活动检测VAD软预测评分;
步骤3:构建联合损失函数;
定义联合损失:
其中和分别是语音活动检测和语音增强的损失函数,λ∈(0,1)是平衡两个损失函数的超参数;
为交叉熵损失函数;
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
其中y=[y1,...,yT]为语音活动检测VAD的预测标签;
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110292283.1/1.html,转载请声明来源钻瓜专利网。