[发明专利]语音降噪方法、装置、设备及介质在审
| 申请号: | 202010522631.5 | 申请日: | 2020-06-10 |
| 公开(公告)号: | CN111429932A | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 丁大为;王哲;嵇望 | 申请(专利权)人: | 浙江远传信息技术股份有限公司 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0232;G10L21/0264 |
| 代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张迪 |
| 地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 方法 装置 设备 介质 | ||
本发明公开了一种语音降噪方法,涉及机器学习领域,用于解决现有语音降噪计算量大、资源占用多的问题,该方法包括以下步骤:获取语音数据;对所述语音数据进行预处理,并提取预处理后的所述语音数据的多维特征;将所述多维特征输入预设语音降噪模型,得到频带增益系数;将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。本发明还公开了一种语音降噪装置、电子设备和计算机存储介质。本发明通过计算频带增益系数,进而实现语音降噪。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种语音降噪方法、装置、设备及介质。
背景技术
噪声抑制从上世纪70年代开始就已经成为了高关注度的话题。传统噪声抑制算法都需要噪声频谱估计器,噪声频谱估计器本身由语音活动检测器(VAD)或类似的算法驱动,噪声频谱估计器的每个组件都需要准确的估计器,对精度要求高,需要大量的人工调参工作,效率低,只要有一个参数不够精确,就容易影响降噪效果。
现有技术开始通过深度学习技术进行噪声抑制,普遍做法是在工程问题中引入深层神经网络,这样的方法称为端到端——神经元接受并传递信息,使得误差最小化;端对端方法已被应用于语音识别和语音合成等工程问题,并且效果显著。但是,深度学习的模型需要占用大量资源,造成资源的浪费。例如,噪声抑制的一些方法使用具有数千个神经元和数千万个权重的层来执行噪声抑制,导致模型运行网络所需的计算成本巨大,模型本身的规模也难以控制,并且需要存储数千行代码以及几十兆字节的神经元权重;通过这些方法进行语音降噪时,对系统的要求高,计算量大。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种语音降噪方法,其通过提取语音数据的多维特征并输入语音降噪模型,进而得到频带增益系数,并根据频带增益系数对语音数据进行分频带降噪。
本发明的目的之一采用以下技术方案实现:
一种语音降噪方法,包括以下步骤:
获取语音数据;
对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;
将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;
当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;
当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;
将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。
进一步地,获取语音数据,包括以下步骤:
每隔10ms采集一帧所述语音数据,采样率为48kHz。
进一步地,所述预处理包括:对所述语音数据进行FFT变换。
进一步地,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据,包括以下步骤:
通过梳状滤波器过滤所述语音数据,并根据所述预设语音降噪模型中的频带数量,将过滤后的所述语音数据分为若干频带;
根据所述频带增益系数对每个频带的语音数据进行滤波,过滤噪音数据。
进一步地,提取预处理后的所述语音数据的多维特征,包括以下步骤:
将每一帧所述语音数据的频谱划分为22个不等分频带,并对每个所述频带的能量进行dct变换,得到22个巴克频率倒谱系数,作为第一特征;
提取所述第一特征中的前6维特征,计算一阶和二阶导数,得到12维特征,作为第二特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江远传信息技术股份有限公司,未经浙江远传信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010522631.5/2.html,转载请声明来源钻瓜专利网。





