[发明专利]混响语音的混响抑制方法及装置有效

申请号：	202011521566.0	申请日：	2020-12-21
公开（公告）号：	CN112687284B	公开（公告）日：	2022-05-24
发明（设计）人：	李军锋;孙兴伟;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混响语音抑制方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种混响语音的混响抑制方法及装置，应用于接收语音的终端，包括：利用编码器模型获得混响语音时域信号的幅度谱对应的多个尺度下的编码特征；根据混响时间对多个尺度的编码特征进行加权处理；根据加权处理后的编码特征，利用解码器模型获得新的幅度谱；对新的幅度谱进行相关计算，获得混响语音时域信号经过混响抑制后的直达语音时域信号；本发明通过混响时间对多个尺度的编码特征进行处理，使本方案可以适应不同环境下混响抑制，提高了进行混响抑制的模型的鲁棒性。

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种混响语音的混响抑制方法及装置。

背景技术

语音混响抑制技术主要是去除语音信号中的混响语音，提高语音的质量和可懂度，从而在语音识别和人耳理解方面取得更好的表现。

由于混响语音信号对应于无混响语音信号和房间冲激响应的卷积，因此，现有技术中的一种混响抑制方法是通过估计房间冲激响应的逆滤波器实现混响抑制。

现有技术中的另一种混响抑制方法是基于深度神经网络的混响抑制方法。其通过训练神经网络模型进行掩蔽估计或谱映射，从混响语音中获得混响抑制后的直达声信号。

基于深度神经网络的混响抑制方法相对于前者的方法，在混响抑制程度上存在优势。但是在模型的输入特征的利用中，没有考虑通过结合环境信息来动态选择多个尺度的包含语音信号上下文信息的编码特征，导致模型对于不同环境变化的鲁棒性欠佳。

发明内容

本发明实施例提供了一种混响语音的混响抑制方法及装置，利用混响时间调整混响抑制模型，使其对混响语音信号的混响抑制的鲁棒性得以提高，解决上述存在的技术问题。

第一方面，本发明提供一种混响语音的混响抑制方法，应用于接收语音的终端，所述方法包括：

接收混响语音时域信号，将所述混响语音时域信号转换到频域中，并获取混响语音频域信号对应的第一幅度谱和相位值；

将所述第一幅度谱输入编码器模型，获得编码器模型输出的多个尺度的编码特征；