[发明专利]一种用于带噪语音信号的处理恢复方法和控制系统在审
| 申请号: | 202211678470.4 | 申请日: | 2022-12-26 |
| 公开(公告)号: | CN116312616A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 李倩 | 申请(专利权)人: | 恒玄科技(上海)股份有限公司 |
| 主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/27;G10L25/51;G10L25/12;G10L19/00;G10K11/175 |
| 代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 夏东栋 |
| 地址: | 201306 上海市浦东新区自由*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 语音 信号 处理 恢复 方法 控制系统 | ||
本申请涉及一种用于带噪语音信号的处理恢复方法和控制系统。该方法包括获取带噪语音信号,进行STFT变换得到声谱图。基于声谱图,确定时频语音特征,用抑噪学习网络估计各个频点的掩蔽值。基于各个频点的掩蔽值和声谱图,确定抑噪后的频域语音信号,执行LPC处理,预测抑噪后的时域语音信号的线性部分和残差部分。对频域语音信号进行ISTFT变换,得到抑噪后的时域语音信号。基于抑噪后的时域语音信号、线性和残差部分,利用恢复学习网络来恢复出增强后的残差部分。将预测的线性部分和增强后的残差部分求和,来得到恢复后的语音信号。如此,能够在小型芯片上有效适配学习网络结合LPC技术,实现对多变噪声环境下带噪语音信号的高效迅速的降噪和修复处理。
技术领域
本申请涉及无线通信领域,更具体地,涉及一种用于无线通信中带噪语音信号的处理恢复方法和控制系统。
背景技术
随着物联网的发展,除了手机以外,人们频繁且广泛地使用各种小型化便携式智能设备,例如智能眼镜、无线蓝牙耳机、无线蓝牙音箱等,在各种多变的噪声背景下,例如地铁、商圈人群、赛场、户外场地等,来执行语音通话功能。与手机不同之处在于,这些小型化便携式智能设备通常对成本和尺寸有严格的要求,配备的芯片也比较小,存储空间和算力有限,也称为“边缘计算”。
目前虽然采用了一些语音通信降噪技术,但通常在频域对噪声能量高的频率分量进行强度抑制,往往会在大噪声情况下损失语音清晰度,使得降噪后的语音质量很差,不可避免地会损伤语音,影响用户听音体验。此外,这些语音通话降噪技术受限于小型化便携式智能设备的芯片配置,算法通常较为粗糙,或者计算缓慢导致听音滞后,不能满足人们对高语音质量和实时性的需求。
发明内容
提供了本申请以解决现有技术中存在的上述缺陷。需要一种用于带噪语音信号的处理恢复方法和控制系统,其能够在边缘计算的小型芯片上有效配置适应性的学习网络结合LPC(线性预测编码)技术,实现对多变的噪声环境下的带噪语音信号的高效且迅速的降噪处理,且能够恢复出无损、高清晰度且实时性良好的语音信号。
根据本申请的第一方案,提供了一种用于带噪语音信号的处理恢复方法。该处理恢复方法包括如下步骤。获取要处理的带噪语音信号。对所述带噪语音信号进行STFT变换,以得到声谱图。基于所述声谱图,确定时频语音特征。基于所述时频语音特征,利用抑噪学习网络来估计各个频点的掩蔽值,作为各个频点的抑噪量。基于各个频点的掩蔽值和声谱图,确定抑噪后的频域语音信号。基于所述频域语音信号,计算功率谱密度。基于所述功率谱密度,通过执行LPC处理,来预测抑噪后的时域语音信号的线性部分和残差部分。对所述频域语音信号进行ISTFT变换,以得到抑噪后的时域语音信号。基于所述抑噪后的时域语音信号、所述线性部分和残差部分,利用恢复学习网络来恢复出增强后的残差部分。将预测的线性部分和增强后的残差部分求和,来得到恢复后的语音信号,使其语音清晰度高于预定阈值。
根据本申请的第二方案,提供了一种用于带噪语音信号的处理恢复的控制系统。该控制系统包括接口、处理单元和存储器。所述接口配置为获取要处理的带噪语音信号。所述处理单元配置为根据本申请各个实施例的用于带噪语音信号的处理恢复方法,包括如下步骤。获取要处理的带噪语音信号。对所述带噪语音信号进行STFT变换,以得到声谱图。基于所述声谱图,确定时频语音特征。基于所述时频语音特征,利用抑噪学习网络来估计各个频点的掩蔽值,作为各个频点的抑噪量。基于各个频点的掩蔽值和声谱图,确定抑噪后的频域语音信号。基于所述频域语音信号,计算功率谱密度。基于所述功率谱密度,通过执行LPC处理,来预测抑噪后的时域语音信号的线性部分和残差部分。对所述频域语音信号进行ISTFT变换,以得到抑噪后的时域语音信号。基于所述抑噪后的时域语音信号、所述线性部分和残差部分,利用恢复学习网络来恢复出增强后的残差部分。将预测的线性部分和增强后的残差部分求和,来得到恢复后的语音信号,使其语音清晰度高于预定阈值。所述存储器配置为存储训练好的抑噪学习网络和恢复学习网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒玄科技(上海)股份有限公司,未经恒玄科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211678470.4/2.html,转载请声明来源钻瓜专利网。





