[发明专利]一种语音识别系统中基于多个卷积神经网络的语音增强算法有效
| 申请号: | 201810012748.1 | 申请日: | 2018-01-06 |
| 公开(公告)号: | CN108172238B | 公开(公告)日: | 2021-08-13 |
| 发明(设计)人: | 陈国强;石城川;彭驷庆 | 申请(专利权)人: | 广州音书科技有限公司 |
| 主分类号: | G10L21/0264 | 分类号: | G10L21/0264;G10L25/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510006 广东省广州市番禺区小谷围*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 系统 基于 卷积 神经网络 增强 算法 | ||
本发明涉及一种基于CNN的噪声识别以及一种结合CNN与平稳快速递归最小二乘法(SFTRLS)的语音增强模型‑‑SFTRLS‑CNN。首先提取带噪音频段中噪声的MFCC等648维特征,进入训练好的第一种卷积神经网络中来识别出噪声的环境类型。然后将提取的音频特征、信噪比和噪声类型值组成658维度特征,采用第二种卷积神经网络来自适应地匹配到SFTRLS算法进行语音增强的最佳遗忘因子。最后通过平稳快速递归最小二乘法实现在各个环境下的降噪处理。该算法让增强模型适用于不同的噪声环境,提高了自适应能力。相比传统的SFTRLS,语音质量评价指标值也更佳。
技术领域
本发明涉及到语音识别系统中噪声识别技术、语音增强技术以及卷积神经网络技术。
背景技术
语音增强技术是指对带噪语音信号进行去噪处理。从语音增强技术发展的重要历程来看,按照处理方式不同,语音增强算法主要有三类:基于谱减法、基于统计学和深度学习的语音增强技术。
基于谱减法的增强技术:经典谱减法用无语音环境计量出噪声频谱的估计值,替代有语音环境噪声的频谱值。通过减去带噪语音的频谱从而获得纯净语音的功率谱。谱减法可利用估计到的初始噪声功率谱和带噪语音信号的相位谱来重构增强后的语音信号。该方法实现简单和运算量小,但它的实现需要两个前提条件:第一,假设噪声环境在统计上是平稳的;第二,加性噪声信号和语音信号不相关。它的不足之处是残留一些节奏性起伏的“音乐噪声”,在听觉上类似低沉音乐在1979年,Berouti等人在前人研究的谱减法上加入了两个系数:一个修正系数和阈值,从而扩展了算法的增强作用。但由于系数一般依赖实验经验值,算法在一些噪声环境下难以起作用,鲁棒性相对比较差。
基于统计技术的增强技术:随着统计学的发展,以统计理论为基础的语音增强技术也在逐步发展。Epharim等人提出了最小均方误差短时幅度谱(mnimum mean squareeeeor of short time amplitude spectrum, MMSE-STSA)算法。1985年,他们加入听觉感受,在MMSE-STSA的基础上提出了Log-MMSE-STSA算法。该算法在性能上取得了比谱减法和维纳滤波器法要好的效果,但处于非平稳环境下时依然效果不理想。1987年,Paliwal提出了经典的卡尔曼(Kalman)滤波法。该算法可以让最小均方误差在非平稳环境下依然能得到最优效果。但由于信号参数的提取方式相对复杂,不具备普适性而难以有实际应用。基于MMSE的研究上,Gerkmann等人于2013年提出的在原来基础上估计语音频谱振幅的十分适用于非平稳噪声的算法。2013 年,Sameti等人在Mel 频域上加入了隐马尔科夫模型(HMM),提出的平行倒谱和谱(Parallel Cepstral and Spectral,PCS)算法可减少语音信号变换到Mel 域的失真程度。同样地它对于非平稳噪声环境中的语音增强效果比较好,但算法复杂度相对比较高。
基于深度学习的增强技术: 1989年,Tamura最先提出了用神经网络进行带噪语音和干净语音非线性关系的学习。基于时域中它们之间不清晰的关系,Xie提出了在频谱域中来训练出它们的非线性关系Bengio提出了源于径向基函数(Radial Basis Function,RBF)来对网络进行改进,从而减少了网络的学习时间。然而由于当时网络规模比较小,随着噪声数据复杂度变大,神经网络的训练变得缓慢,在一定的学习之后也容易陷入局部最优解。这些缺陷一度阻碍着学者们运用神经网络在语音增强领域上的研究。在往后的十余年,伴随深度学习的深入研究,通过数据驱动的深度网络被运用到语音增强领域,取得了一定的实际作用。不过语音增强是一个实时性处理比较强的过程,如果要达到比较理想的状态,需要网络处理的时间速度足够快。直接对语音数据建立网络映射关系,会消耗一定时间。
单独采用深度网络实现语音增强耗时比较大,也需要比较大量的数据。为了在少量的数据下快速实现自适应的语音增强处理,对各种噪声环境先进行分类,针对不同的噪声采用不同的降噪处理过程,可以提高算法的自适应能力,同时相比直接的网络回归计算加上语音合成计算,可以在一定程度上减少算法的复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州音书科技有限公司,未经广州音书科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810012748.1/2.html,转载请声明来源钻瓜专利网。





