[发明专利]一种说话人无关单通道语音分离方法有效
| 申请号: | 202010401151.3 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN111583954B | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 张文;宋君强;任开军;李小勇;邓科峰;周翱隆;汪祥;任小丽;邵成成;吴国溧 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 说话 无关 通道 语音 分离 方法 | ||
1.一种说话人无关单通道语音分离方法,其特征在于,包括以下步骤:
步骤1,准备数据集,进行数据预处理;
步骤2,建立基于复数理想浮值掩蔽的单声道语音分离模型;
步骤3,对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;
步骤4,将混合语音输入训练完毕的模型进行语音分离;
步骤1中所述的数据集为WSJ0-2mix数据集,所述的WSJ0-2mix数据集包括训练集、验证集和测试集,是通过从WSJ0训练集si_tr_s中随机选择两位说话人,从该两位说话人的录音中随机选择语句进行混合得到的,混合时两个语句的信噪比从范围是0dB-5dB,具体信噪比值为随机选择,所有的语音数据都通过短时傅里叶变换的预处理得到129维复数谱;
所述的单声道语音分离模型以Y形的双向长短期记忆循环神经网络为框架模型,包含3层,每个隐层的神经元节点数为896,当数据流从较低层传递进入较高层网络时,模型设置随机dropout,dropout概率为0.5,对|S|个说话人的混合语音进行分离时,网络模型的输出流有|S|个,为了避免梯度消失问题,数据被依次导入有|S|×1792个神经元的线性层和有|S|×1792个神经元的ReLU层,模型的输入数据是三维张量,形状为D×T×129,D表示一次训练所选取的样本数,每次用于训练的样本数是固定的;T表示每次训练时包含的训练语句中最大的帧数,129是频点数,是语音数据进行短时傅里叶变换得到的129维复数谱,其中,帧长为16ms,帧移为8ms,模型的输出由|S|个掩蔽估计值组成,每个掩蔽估计值向量的维度是T×129;
步骤3中所述的模型进行训练的过程中,训练目标是复数理想浮值掩蔽,其包含实部和虚部,所述的双向长短期记忆循环神经网络有两个输出,一个用于预测实部分量,另一个用于预测虚部分量,预测实部分量和虚部分量的两个网络是分开进行优化的。
2.根据权利要求1所述的说话人无关单通道语音分离方法,其特征在于,在模型训练阶段,对干净源语音和混合语音进行短时傅里叶变换,然后,将变换之后语音源的实部和虚部分别用于计算压缩的实部掩蔽cIRM′r和压缩的虚部掩蔽cIRM′c作为双向长短期记忆循环神经网络中实部和虚部的训练标签,在每次迭代时,通过最小化标签值与双向长短期记忆循环神经网络输出值之间的均方误差来优化时频掩蔽的估计值,多次迭代之后,将均方误差缩小到某个范围或者触发其他设定时停止训练,训练完成,保存此时双向长短期记忆循环神经网络的参数,在测试阶段使用;
在模型测试阶段,同样获得混合语音的短时傅里叶变换结果,然后将其作为在训练阶段得到的网络模型的输入,使用逆函数对网络模型的两个输出值进行恢复处理,从而分别得到目标源语音的实部掩蔽和虚部掩码的估计值,通过将实部掩蔽和虚部掩蔽估计值乘以混合语音的短时傅立叶变换值,得到估计信号的实部和虚部,然后,再使用傅里叶变换的逆变换进行信号重建,得到分离的语音信号。
3.根据权利要求1或2所述的说话人无关单通道语音分离方法,其特征在于,所述的复数理想浮值掩蔽的实部表示为:
虚部表示为:
由此,复数理想浮值掩蔽表示为:
其中,Yr和Yc为混合语音使用短时傅里叶变换之后的实部和虚部,Sr和Sc分别为对干净源语音信号进行短时傅里叶变换之后的实部和虚部,Yr、Yc、Sr和Sr的取值范围是
4.根据权利要求3所述的说话人无关单通道语音分离方法,其特征在于,所述的实部掩蔽cIRM′r和虚部掩蔽cIRM′c统一表示为
其中x取值为r或c,表示实部或虚部,压缩操作将掩蔽值限制在[-K,K]之内,K为预设值,参数C控制其陡度;
所述的逆函数表示为:
其中,cIRMx表示未压缩掩码的估计,Ox是深度神经网络模型的输出。
5.根据权利要求1或4所述的说话人无关单通道语音分离方法,其特征在于,所述的采用语句级置换不变性训练模型时,实部代价函数定义为:
其中,B=T×N×S是所有声源上时频单元的总数,T是所有声源的语句帧总数,N是窗长或帧长,S表示声源数目,t表示时间帧的索引,f表示频率的索引,表示训练阶段网络的第i个输出流,即第i个理想浮值掩蔽实部分量的估计值,表示取使得语句级语音分离的代价最小的标签排列时,与第i个理想浮值掩蔽实部分量估计值相对应的理想浮值掩蔽实部分量的标签值,是使得语句级语音分离的代价值最小的排列,定义为:
其中,S表示声源数目,是S次对称群,包含所有S!个排列方式的集合,φ表示其中一种排列方式,表示当固定理想浮值掩蔽实部分量标签值的排列时第i个标签值,虚部代价函数的训练过程与实部分量部分相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401151.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板及其制备方法
- 下一篇:一种基于SSNet模型的地震事件到时识别方法





