[发明专利]语音增强方法、系统、电子设备和存储介质在审
申请号: | 201910501991.4 | 申请日: | 2019-06-11 |
公开(公告)号: | CN112151053A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 耿岭;陈宇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 增强 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种语音增强方法、系统、电子设备和存储介质。其中方法包括:获取音频数据;利用语音增强算法,根据所述音频数据计算单帧音频数据在每一频点处的功率谱;从所述语音增强算法的计算结果中获取所述功率谱;计算在每一频点处的输出增益量;根据所述输出增益量,计算相应频点处的功率谱对应的增强功率谱;利用所述语音增强算法,根据所述增强功率谱生成语音增强信号。本发明实施例在语音增强的过程中增加了自动增益调整的过程,避免语音增强处理后的语音可能出现声音过大或过小的情况,在对语音增强算法不增加太多计算量的情况下,实现对输出音频的自动增益控制。
技术领域
本发明属于计算机领域,尤其涉及一种语音增强方法、系统、电子设备和存储介质。
背景技术
语音增强是语音信号处理系统的核心技术之一,其增强效果的好坏直接影响输出语音的质量,对后续的处理,包括关键词唤醒,语音识别等有着重要的影响。
在现有的语音增强算法中,分为单通道和多通道语音增强。其中多通道语音增强使用较多的是波束形成算法,其核心是设计一种空间滤波,实现对期望方向的语音进行增强,对其它方向的声音进行抑制。
对于单通道语音增强使用较多的算法包括谱减法、最小均方误差估计以及OMLSA(Optimally Modified Log-Spectral Amplitude Estimator)算法。其核心先对噪声进行估计,然后从含噪语音中估计出干净的语音。
在现有的技术方案中,单通道语音增强的处理过程中对输出音频的增益没有做处理,而是在语音增强处理结束后再利用单独的增益控制模块对输出的音频进行增益调整。这种方式一方面无法避免语音增强处理后的语音可能出现声音过大或过小的情况,另一方面在增加输出增益调整后使得系统变得复杂,消耗较多的计算资源。
发明内容
本发明实施例要解决的技术问题是为了克服现有技术中单通道语音增强的处理过程中对输出音频的增益没有做处理的缺陷,提供一种语音增强方法、系统、电子设备和存储介质。
本发明实施例是通过以下技术方案解决上述技术问题的:
本发明实施例提供一种语音增强方法,包括:
获取音频数据;
利用语音增强算法,根据所述音频数据计算单帧音频数据在每一频点处的功率谱;
从所述语音增强算法的计算结果中获取所述功率谱;
计算在每一频点处的输出增益量;
根据所述输出增益量,计算相应频点处的功率谱对应的增强功率谱;
利用所述语音增强算法,根据所述增强功率谱生成语音增强信号。
较佳地,所述语音增强方法还包括在计算每一频点处的输出增益量之前:利用所述语音增强算法,根据所述音频数据计算在每一频点处的噪声抑制增益量;
计算在每一频点处的输出增益量的步骤包括:
从所述语音增强算法的计算结果中获取在每一频点处的噪声抑制增益量;
获取当前的增益量;
根据所述噪声抑制增益量、所述功率谱以及当前的增益量,计算所述单帧音频数据的当前语音响度,所述当前语音响度等于所述单帧音频数据在每一频点处的语音响度的累计;
比较所述当前语音响度与参考语音响度,计算使所述当前语音响度与所述参考语音响度缩小差距的增益调整量;
对当前的增益量调整所述增益调整量,得到新的增益量;
计算每一频点处的输出增益量,所述输出增益量等于新的增益量乘以相应频点处的噪声抑制增益量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910501991.4/2.html,转载请声明来源钻瓜专利网。