[发明专利]应用于麦克风阵列的语音增强方法有效
| 申请号: | 201810225373.7 | 申请日: | 2018-03-19 |
| 公开(公告)号: | CN108447498B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 叶中付;贾翔宇;童仁杰 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G10L21/0216 | 分类号: | G10L21/0216 |
| 代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;卢纪 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用于 麦克风 阵列 语音 增强 方法 | ||
1.一种应用于麦克风阵列的语音增强方法,其特征在于,包括:
步骤一、将接收到的麦克风阵列多路语音数据信号表示成张量形式,利用时间、频率和通道三个物理量把信号建模成一个三阶张量;
步骤二、采用张量分解方法建立多模滤波器,通过时域、频域和空域三个滤波器分别对带噪的多路语音数据信号进行迭代滤波,恢复出期望的干净的多路语音数据信号;
所述步骤一中利用时间、频率和通道三个物理量把信号建模成一个三阶张量的步骤具体包括基于复数张量表示的联合时域-频域-空域滤波模型;
利用接收到的时空频三维信息对带噪语音信号采用三维滤波模型进行滤波处理;所述三维滤波模型是在帧内-帧间滤波器基础模型上进行扩展延伸的,所述基础模型在时域上表示如下:
其中,sj(t),j=1,…,J表示在t时刻的第j个目标信号,cj(t)=[c1j(t),...,cIj(t)]T是指j个信号源分别经过I个麦克风接收记录的信号,aj(t,τ)=[a1j(t,τ),…,aIj(t,τ)]T表示第j个目标源对I个麦克风的声脉冲响应;
为了应用语音信号的短时频域的稀疏性,对上式做短时傅里叶变换,得到:
cj(n,f)=aj(n,f)sj(n,f).
其中,n∈{0,...,N-1}表示帧数,f∈{0,...,F-1}表示频率点,每个时间点n对应着一帧信号cj(n,:),此处的f表示一个数值变量,一帧信号中包含有多个频率点数值;cj(n,f)=[c1j(n,f),...,cIj(n,f)]T、aj(n,f)=[a1j(n,f),...,aIj(n,f)]T和sj(n,f)分别对应着cj(t)=[c1j(t),...,cIj(t)]T、aj(t,τ)=[a1j(t,τ),…,aIj(t,τ)]T和sj(t)的短时傅里叶变换;当考虑到帧内信息和子带间的信息时,我们得到:
其中,aj(n′,f′,f)表示从频率点f到频率点f′的子带间滤波器,此滤波器利用到了频率维度的信息;n′是语音第n帧相邻的帧数,此参数的引入利用到了帧间的信息;基于子带滤波近似理论,上式可以化简为:
仅考虑只有一个信号源的情况,即J=1的情况下,把上述文字及公式中的信号源系数j省略;c(n,f)在综合考虑到帧间,频率间,通道间的信息后可以被重新排列成三阶张量的形式;c(n,f)是复张量的一个管纤维,原始的干净的语音数据信号用张量
假设原始的干净的多路语音数据信号用张量表示,当其叠加上干扰噪声时,会得到带噪的多路语音数据信号
也就是:
其中,F表示频率点个数,与物理量频率对应;N表示分段语音的帧数,与物理量时间对应;I表示麦克风数目,与物理量通道对应;
所述步骤二具体包括:用多模滤波器估计原始干净的多路语音数据信号
其中{Hf,Ht,Hs}表示基矩阵,是各个模的重要成份组成,分别代表了频域滤波器、时域滤波器和空域滤波器,×k表示mode-k张量积,k=1,2,3;具体地,表示观测张量mode-1纤维
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810225373.7/1.html,转载请声明来源钻瓜专利网。





