[发明专利]基于定向降噪与干声提取技术的语音优化方法在审
申请号: | 202110587258.6 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113314136A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 谭浩;刘天翼;郭哲宇;郝佳晨;樊书宏 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/30;G10L25/60 |
代理公司: | 北京神州信德知识产权代理事务所(普通合伙) 11814 | 代理人: | 刘真 |
地址: | 710126 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 定向 提取 技术 语音 优化 方法 | ||
1.一种基于音频场景识别的的定向降噪方法,其特征在于该方法包括以下步骤:
S1、建立声音库;
S2、定义使用的环境;
S3、构建深度语音去噪自监督语音增强全卷积神经网络;
S4、进行声音增强。
2.如权利要求1所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于S1步骤中,建立声音库,采用TIMIT语料库,语料库中的音频文件由若干个讲话者组成的复数个语音音频文件组成。
3.如权利要求2所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于每个音频文件长度约为15s;上述音频文件为干净语音信号,将干净语音信号通过UrbanSound8K数据集的噪声信号破坏。
4.如权利要求3所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于所述数据集由各种噪声文件组成,每个噪声文件持续20s;带噪的语音文件以48kHz采样,归一化到绝对单位最大值。
5.如权利要求1所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于S2步骤中,将不同的噪声信号分别对应定义到餐厅、室外、马路场景中。
6.如权利要求1所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于S3步骤中,构建深度语音去噪自监督语音增强全卷积神经网络。
7.如权利要求6所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于进一步包括有:
(1)模型的输入信号
一个语音+噪声混合或含噪语音信号y(t)表示为y(t)=x(t)+n(t);
其中x(t)和n(t)分别表示纯净语音信号和附加噪声信号;
网络参数和连接权值表示为Θ;
将y(t)和Θ作为模型的两个输入;
(2)模型的训练
语音去噪网络的训练基于帧的方式进行,通过将噪声语音信号分割成20ms帧,相邻帧之间有50%的重叠,利用深度神经网络提取去噪后的语音信号其中yi是含噪声语音信号的输入帧,i表示信号帧。训练对(yi,xi)用于最小化损失函数求得网络的权值。
8.如权利要求7所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于所使用的神经网络体系结构是一个完全卷积神经网络,使用一维卷积对时间序列数据的时间属性进行建模;完全卷积神经网络使用6个卷积层,55个大小为(30,1)的滤波器分布在第一到第五卷积层,使用1个大小为(1,1)的滤波器在最后一个卷积层,使用双曲正切激活函数。
9.如权利要求1所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于S4步骤中,声音增强,是指利用深度吸引子与其同源的时频点间的相似度变高来计算分离掩蔽,在失真度最小的条件下,增强提取得到的纯净语音信号。
10.如权利要求9所述的基于定向降噪与干声提取技术的语音优化方法,其特征在于S4步骤中,对于单麦克风语音分离的深度吸引子网络,在高维空间中嵌入吸引子将时频信息整合来训练的网络,模型实现了端到端的训练;对于独立声源语音分离,在原DANet基础上提出第三种寻找声源嵌入空间中的吸引子方法,并进行训练、测试阶段的实现;
其中,声源分离方法。步骤:
101.在每个T-F块生成一个高维嵌入空间;
102.在嵌入空间中形成吸引子,将属于该声源的TF块拉向自身,造成空间中的声源分离开来;
103.利用每个嵌入空间和吸引子的相似性来估计混合语音中每个声源的mask;
104.由于掩模的顺序与吸引子直接相关,因此在吸引子确定之后确定掩模顺序;
105.设定一组锚点,便可以不通过后聚类直接估计声源掩码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587258.6/1.html,转载请声明来源钻瓜专利网。