[发明专利]一种利用CNN的U-NET结构进行远场语音去混响的方法有效

申请号：	201910200023.X	申请日：	2019-03-15
公开（公告）号：	CN109949821B	公开（公告）日：	2020-12-08
发明（设计）人：	李楠;张健	申请（专利权）人：	慧言科技（天津）有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/24;G10L15/22
代理公司：	北京栈桥知识产权代理事务所(普通合伙) 11670	代理人：	潘卫锋
地址：	300384 天津市西青区天津华苑产业***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用 cnn net 结构进行语音混响方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种利用CNN的U‑NET结构进行远场语音去混响的方法，属于语音信号处理技术领域，针对远场情况下混响比较大从而引起语音识别的识别准确率严重下降的情况，提出一种CNN的U‑NET结构，以2014年的REVERB Challenge数据集作为处理对象，主要包括以下步骤：对该数据集中的含混响的语音和与其对应的不含混响的语音进行特征提取；针对所提取的特征进行从含混响的语音特征到不含混响语音特征映射；将通过所提出的网络框架所增强后的特征进行声学模型训练及其解码。

技术领域

本发明属于语音信号处理技术领域，具体是涉及一种利用CNN的U-NET结构进行远场语音去混响的方法。

背景技术

近年来，智能家居、对话机器人、智能音响等新兴产业蓬勃发展，给人们的生活方式以及人和机器的交互方式产生了极大的变化，语音交互作为一个新的交互方式在这些新兴领域中得到了广泛的应用。随着深度学习应用在语音识别中，识别性能得到了很大的提高，识别率已经超过95％，识别效果基本上已经能达到了人的听觉水平。但是以上这些仅限于在近场的条件下，噪声和房间所产生的混响非常小，怎样在噪声很多或者混响很大的复杂场景下达到一个很好的识别效果成为极为重要的用户体验。

语音的去混响是远场语音识别中的一个主要的研究方向。在一个房间内，混响语音可以表示为干净语音信号和房间冲击响应(RIR)的卷积，所以含混响的语音会受到同一句话中的之前的语音信息的干扰。混响会包括早期混响和晚期混响，早期混响会对语音识别的效果带来一定的提升，但是晚期混响会使语音识别的识别效果下降。因此，如果能有效地抑制或减少晚期混响，将会得到一个良好的语音识别效果。

现有的研究分为两种：一种是使用信号处理的方法来进行语音去混响如日本的NTT公司的加权预测误差(WPE)的方法，但是单单使用这种信号处理的方法在更为复杂的场景下所产生的效果却远远不能满足人们的需求；另一种是使用深度学习的方法来进行语音去混响如利用深度神经网络来进行语音的去混响。目前神经网络方法虽然能够建立一个良好的非线性映射，但是仅仅使用全连接的神经网络，效果很难达到我们所预期的效果，构建一个好的网络结构对于语音识别将产生一个好的识别性能的提升，对复杂场景下的语音识别有着现实意义。本发明也将当前的方法在相同条件下进行了对比，结果表明我们所使用的神经网络框架大大的优于现在的主流方法。

发明内容

针对上述存在的问题，本发明提供了一种利用CNN的U-NET结构进行远场语音去混响的方法。

本发明的技术方案是：一种利用CNN的U-NET结构进行远场语音去混响的方法，包括以下步骤：

步骤一：数据的特征提取；

预加重：将数据集中任意一组语音信号s(n)通过高通滤波器，

加窗：取25ms为一帧，并使用汉宁窗；

快速傅里叶变换(FFT)：对每一帧进行FFT变换，从时域数据转变为频域数据，并计算谱线能量；

Mel滤波：把求出的每帧谱线能量通过Mel滤波器，并计算在Mel滤波器中的能量；

计算DCT倒谱：把Mel滤波器中的能量取对数后计算DCT，就可以得到Mel频率倒谱系数MFCC；

步骤二：前端特征增强的神经网络框架的设计；

使用步骤二中得到的MFCC特征作为输入，卷积层的宽设置为MFCC的维度，卷积层的高设置为11，然后设置卷积层的filter大小分别为[12,12,24,24,32,32,24,24,12,12]，相当于一个encoder-decoder的网络结构，同时使用Resnet的结构连接了encoder和decoder，即将第二和第四个卷积层分别和第七个和第九个的输出相加，将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接，添加两个全连接神经网络，通过输出层输出干净语音的MFCC特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于慧言科技（天津）有限公司，未经慧言科技（天津）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910200023.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用CNN的U-NET结构进行远场语音去混响的方法有效

专利文献下载