[发明专利]基于卷积循环神经网络的单通道人声与背景声分离方法有效

申请号：	202011119804.5	申请日：	2020-10-19
公开（公告）号：	CN112259120B	公开（公告）日：	2021-06-29
发明（设计）人：	孙超	申请（专利权）人：	南京硅基智能科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308;G10L25/18;G10L25/30;G10L25/45
代理公司：	苏州国诚专利代理有限公司 32293	代理人：	卢华强
地址：	210012 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积循环神经网络通道人声背景分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积循环神经网络的单通道人声与背景声分离方法，包括步骤：S1、获取原始混合语音信号；S2、得到原始混合信号幅度谱和原始混合信号相位谱；S3、将原始混合信号幅度谱输入卷积神经网络；S4、将低分辨率特征图和原始混合信号幅度谱输入循环神经网络，结合时频掩模得到人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值；S5、将人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值分别与原始混合信号相位谱结合，得到预测人声信号和预测背景声信号。与现有技术相比，本发明提供的分离方法，能捕获语音的时间域和频率域信息，并生成的多尺度特征分离混合语音的人声信号和背景声信号。

技术领域

本发明涉及人声与背景声分离，具体是基于卷积循环神经网络的单通道人声与背景声分离方法。

背景技术

语音分离的目的是从背景干扰中分离出目标语音，由于麦克风采集到的声音中可能包括噪声、其他人说话的声音，背景音乐等干扰项，不做语音分离直接进行识别的话，会影响到识别的准确率。因此分离识别出的源在人声，在自动语音识别等信号处理领域有重要价值，单通道下的人声与背景音乐分离是语音分离中一个基础而重要的分支。

近些年来，随着软硬件性能的提高和机器学习算法的普及，深度学习渐渐在自然语言处理和图像等领域上展示了极高的效果。基于深度学习的语音分离，是从训练数据中学习语音、说话人和噪音的特征，构建整体的神经网络从而实现语音分离的目标。语音信息可以同时体现在时间域和频率域，语音的时间域和频率域信息都是宝贵的特征信息，但是对于语音分离来说，大部分深度学习的方法都是利用单一的卷积神经网络或者循环神经网络来进行分离，还没有统一的可泛化通用的框架来进行语音分离，无法准确提取混合语音中的时间域和频率域信息，混合语音的人声与背景声分离效果差。

发明内容

本发明的目的在于克服现有技术无法准确提取语音中的时间域和频率域信息，混合语音中人声与背景声分离效果差的不足，提供了一种基于卷积循环神经网络的单通道人声与背景声分离方法，通过在卷积神经网络中设计了两种不同大小的卷积核，捕获语音的时间域和频率域信息，同时进行特征降维和提取其局部特征并与原始混合信号幅度谱结合成的多尺度特征输入循环神经网络中，能准确分离混合语音的人声信号和背景声信号。

本发明的目的主要通过以下技术方案实现：

基于卷积循环神经网络的单通道人声与背景声分离方法，包括步骤：

S1、获取原始混合语音信号，所述原始混合语音信号为单通道的人声、背景声的混合信号；

S2、将获取的原始混合语音信号经过分帧加窗、时频转换，得到原始混合信号幅度谱和原始混合信号相位谱；

S3、将原始混合信号幅度谱输入卷积神经网络，所述卷积神经网络包括依序设置的卷积层和池化层；卷积层获取原始混合信号幅度谱的局部特征，池化层对特征进行降维，转换为低分辨率特征图并输出；所述卷积层包括两层，且两层卷积层中的卷积核大小不同；

S4、将低分辨率特征图和原始混合信号幅度谱输入循环神经网络，结合时频掩模得到人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值；

S5、将人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值分别与原始混合信号相位谱结合，并分别经过逆傅里叶变换得到预测人声信号和预测背景声信号；

所述卷积神经网络和循环神经网络均设有原始混合信号幅度谱通道。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司，未经南京硅基智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011119804.5/2.html，转载请声明来源钻瓜专利网。