[发明专利]一种麦克风阵列语音增强方法及实现装置有效
申请号: | 201910677433.3 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110517701B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 张军;梁晟;宁更新;冯义志;余华;季飞 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L25/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蒋剑明 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 麦克风 阵列 语音 增强 方法 实现 装置 | ||
1.一种基于深度神经网络的麦克风阵列语音增强方法,其特征在于,采用以下步骤对输入的语音信号进行增强:
S1、使用干净语音库和噪声库训练用于将带噪语音和噪声映射为干净语音的深度神经网络;
S2、使用麦克风阵列估计说话人的来波方向θ0、干扰源的数目J和干扰源的来波方向θj,1≤j≤J;
S3、将麦克风阵列接收的信号分为三条支路,支路一采用固定波束形成器对说话人方向的信号进行增强,得到支路一输出的语音频谱S(f)(ω,t),其中t为帧序号;支路二采用阻塞矩阵B1抑制说话人方向的信号,并将阻塞矩阵的输出通过自适应滤波器,得到支路二输出的噪声分量频谱支路三采用阻塞矩阵B2抑制说话人和所有干扰源方向的信号,得到支路三输出的空间非相干噪声的频谱矢量
所述的步骤S3中,对于第i,i=1,2,…,24个子带,支路一的权值矩阵wq,i采用以下方法计算:
其中C1i=d(ωi,θ0)为约束矩阵,M为麦克风阵列的阵元数,ωi为第i个子带的中心频率,θ0为说话人的来波方向,τ0,m,0≤m≤M-1,为说话人声音到达第m个阵元与到达第0个阵元的时延差,f为响应矢量;
所述的步骤S3中,对于第i,i=1,2,…,24个子带,支路三的阻塞矩阵B2i采用以下方法计算:
将矩阵C2i=[d(ωi,θ0),d(ωi,θ1),…,d(ωi,θJ)]进行奇异值分解
其中M为麦克风阵列的阵元数,ωi为第i个子带的中心频率,θ0为说话人的来波方向,τ0,m,0≤m≤M-1,为说话人声音到达第m个阵元与到达第0个阵元的时延差,1≤j≤J,J为干扰源数目,θj为干扰源的来波方向,τj,m,0≤m≤M-1,为第j个干扰源声音到达第m个阵元与到达第0个阵元的时延差,Σ2ir为r2×r2的对角矩阵,r2为C2i的秩,令其中U2ir为U2i的前r2行,为U2i的剩余行,则
S4、使用和估计S(f)(ω,t)中包含的噪声频谱
S5、将S(f)(ω,t)和输入步骤S1中训练的深度神经网络,得到增强后的语音。
2.根据权利要求1所述的麦克风阵列语音增强方法,其特征在于,所述的步骤S1中深度神经网络的训练采用以下步骤:
S1.1、将干净语音库的语音与噪声库的噪声相叠加得到带噪语音,将带噪语音的短时频谱和相应的噪声的短时频谱作为输入,相应的干净语音的短时频谱作为目标输出,得到训练数据集;
S1.2、设置深度神经网络的结构参数,并采用以下代价函数:
其中X(ω,t)表示第t帧干净语音的短时频谱,表示由第t帧带噪语音短时频谱S(f)(ω,t)和噪声短时频谱构成的输入样本,f(Y(ω,t))表示神经网络的输出,T为训练用的语音帧数;
S1.3、训练深度神经网络,使得代价函数Φ的变化小于预设值。
3.根据权利要求1所述的麦克风阵列语音增强方法,其特征在于,所述的步骤S3和步骤S4中,首先将输入的信号分解为K个子带,每个子带的信号通过三条支路进行处理后,再合成全带的S(f)(ω,t)和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910677433.3/1.html,转载请声明来源钻瓜专利网。