[发明专利]应用于麦克风阵列的语音增强方法有效

申请号：	201810225373.7	申请日：	2018-03-19
公开（公告）号：	CN108447498B	公开（公告）日：	2022-04-19
发明（设计）人：	叶中付;贾翔宇;童仁杰	申请（专利权）人：	中国科学技术大学
主分类号：	G10L21/0216	分类号：	G10L21/0216
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;卢纪
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	应用于麦克风阵列语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用于麦克风阵列的语音增强方法，其特征在于，包括：

步骤一、将接收到的麦克风阵列多路语音数据信号表示成张量形式，利用时间、频率和通道三个物理量把信号建模成一个三阶张量；

步骤二、采用张量分解方法建立多模滤波器，通过时域、频域和空域三个滤波器分别对带噪的多路语音数据信号进行迭代滤波，恢复出期望的干净的多路语音数据信号；

所述步骤一中利用时间、频率和通道三个物理量把信号建模成一个三阶张量的步骤具体包括基于复数张量表示的联合时域-频域-空域滤波模型；

利用接收到的时空频三维信息对带噪语音信号采用三维滤波模型进行滤波处理；所述三维滤波模型是在帧内-帧间滤波器基础模型上进行扩展延伸的，所述基础模型在时域上表示如下：

其中，s_j(t),j＝1,…,J表示在t时刻的第j个目标信号，c_j(t)＝[c_1j(t),...,c_Ij(t)]^T是指j个信号源分别经过I个麦克风接收记录的信号，a_j(t,τ)＝[a_1j(t,τ),…,a_Ij(t,τ)]^T表示第j个目标源对I个麦克风的声脉冲响应；

为了应用语音信号的短时频域的稀疏性，对上式做短时傅里叶变换，得到：

c_j(n,f)＝a_j(n,f)s_j(n,f).

其中，n∈{0,...,N-1}表示帧数，f∈{0,...,F-1}表示频率点，每个时间点n对应着一帧信号c_j(n,:)，此处的f表示一个数值变量，一帧信号中包含有多个频率点数值；c_j(n,f)＝[c_1j(n,f),...,c_Ij(n,f)]^T、a_j(n,f)＝[a_1j(n,f),...,a_Ij(n,f)]^T和s_j(n,f)分别对应着c_j(t)＝[c_1j(t),...,c_Ij(t)]^T、a_j(t,τ)＝[a_1j(t,τ),…,a_Ij(t,τ)]^T和s_j(t)的短时傅里叶变换；当考虑到帧内信息和子带间的信息时，我们得到：

其中，a_j(n′,f′,f)表示从频率点f到频率点f′的子带间滤波器，此滤波器利用到了频率维度的信息；n′是语音第n帧相邻的帧数，此参数的引入利用到了帧间的信息；基于子带滤波近似理论，上式可以化简为：

仅考虑只有一个信号源的情况，即J＝1的情况下，把上述文字及公式中的信号源系数j省略；c(n,f)在综合考虑到帧间，频率间，通道间的信息后可以被重新排列成三阶张量的形式；c(n,f)是复张量的一个管纤维，原始的干净的语音数据信号用张量X(f,n,:)＝c(n,f)；

假设原始的干净的多路语音数据信号用张量表示，当其叠加上干扰噪声时，会得到带噪的多路语音数据信号Y，表示如下：

也就是：

其中，F表示频率点个数,与物理量频率对应；N表示分段语音的帧数，与物理量时间对应；I表示麦克风数目,与物理量通道对应；Y(f,n,i)表示第i个麦克风接收通道中的第n帧的第f个元素；因此在这个模型中，X和N都是三阶张量，这里的噪声是高斯白噪声和/或色噪声；

所述步骤二具体包括：用多模滤波器估计原始干净的多路语音数据信号X：

其中{H_f,H_t,H_s}表示基矩阵，是各个模的重要成份组成，分别代表了频域滤波器、时域滤波器和空域滤波器，×_k表示mode-k张量积，k＝1,2,3；具体地，表示观测张量mode-1纤维Y(:,n,i)的基矩阵，表示观测张量mode-2纤维Y(f,:,i)的基矩阵，表示观测张量mode-3纤维Y(f,n,:)的基矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810225373.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种在有干扰的环境中独立出自己发声的方法
下一篇：一种双层圆环麦克风阵列语音增强方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]应用于麦克风阵列的语音增强方法有效

专利文献下载