[发明专利]一种融合信噪比与可懂度双重目标的语音增强方法及系统在审
申请号: | 201910689178.4 | 申请日: | 2019-07-29 |
公开(公告)号: | CN112309421A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张鹏远;战鸽;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L21/0232;G10L25/30;G10L25/45;G10L25/60 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 可懂度 双重 目标 语音 增强 方法 系统 | ||
本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。
技术领域
本发明属于语音增强信号处理技术领域,特别涉及一种融合信噪比与可懂度双重目标的语音增强方法及系统。
背景技术
语音信号受到噪声干扰时,信号质量和可懂度都会下降,从而影响基于语音信号的语音识别和语音感知处理的用户体验。目前,普遍采用的语音增强方法,借助于估计语音信号的掩模,进而从噪声的覆盖下分离出语音信号的频谱成分。这种语音增强方法通常是基于最小均方误差准则,估计一个掩模,将时频域内带噪声的语音信号成分进行分类,区分开被噪声遮蔽的成分,保留语音信号能量较强的成分。分离出的语音信号成分带有重要的语音信息,常常被用于后续的语音识别和语音感知处理。但是,最小均方误差准则并不直接关联与人类对语音信号的感知机理,而且并不区别分布在带噪信号中不同段落的噪声信号和语音信号,因而,对于抑制噪声残留和提高语音信号的听感质量、可懂度并非最优。于是,直接关联抑制噪声残留和提高听感质量、可懂度这两个方便的针对性语音增强方法,在研究和应用层面都具有独到的重要性。
现阶段的语音增强技术,主要根据语音信号时频特征,产生一个基于最小均方误差准则最优的掩模,利用掩模与时频特征结合得到语音信号成分。这样的增强结果是在抑制噪声残留和提高听感质量、可懂度之间的平衡,无法在存在语音成分的段落中精细表达语音信号的精确性,从而妨碍语音信号可懂度的提高。同时,由于均方误差中包含语音成分的误差,残留噪声引起的误差也不能被精确表达,因而增强得到的语音信号在信噪比意义上也不是最优的。
随着深度神经网络在图像、语音等多中信号处理领域的分支中获得广泛应用,最小均方误差之外的训练准则日益得到关注。对于现有的语音增强方法面临的多样的优化目标,单一的训练准则不能全面的包含所有优化目标角度下得到的误差,通常只能达到抑制噪声残留和提高听感质量、可懂度之间的平衡,增强结果在抑制噪声和提高语音可懂度的角度上都不是最优的。
发明内容
本发明的目的在于,为解决现有的语音增强方法存在的上述缺陷,本发明提出了一种融合信噪比与可懂度双重目标的语音增强方法,该方法以多种训练准则分别训练不同的神经网络,之后融合多种优化目标下得到的结果,形成新的增强语音信号;该方法克服了现有的语音增强方法存在的信噪比提升有限、可懂度提升有限的问题。
为了实现上述目的,本发明提出了一种融合信噪比与可懂度双重目标的语音增强方法,该方法包括:
从原始语音信号中提取原始时频域特征;
将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;其中,第一有效特征中提高了信噪比,即具有信噪比高的优点;
将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;其中,第二有效特征中提高了可懂度,即具有可懂度高的优点;
对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征。
作为上述技术方案的改进之一,所述将原始语音信号转换为原始时频域特征;具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910689178.4/2.html,转载请声明来源钻瓜专利网。