[发明专利]一种基于向量机框架的多通道语音活动检测方法在审
申请号: | 201710499621.2 | 申请日: | 2017-06-27 |
公开(公告)号: | CN107424625A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 万新旺;廖鹏程;王吉;沈利祥 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/45;G10L21/0216;G10L21/0208;G10L15/14;G10L15/10 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 张芳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 框架 通道 语音 活动 检测 方法 | ||
技术领域
本发明涉及互联网信息技术领域,特别涉及一种基于向量机框架的多通道语音活动检测方法。
背景技术
在人类信息交换当中,有相当一部分是通过声学形式表现的,而语音是信息传递最直接有效的形式。语音是声音和意义的结合体,是进行通信和信息交流的最快捷的途径。
语音活动检测(voice activity detection,VAD),是指从一段含有语音的信号中准确智能地确定语音的起始和终止点的一种检测技术。这种检测技术与语音的具体内容无关,它已经成为了在语音编码、语音增强和语音识别等应用领域中的一个不可忽略的环节。通常准确率较低的语音活动检测容易产生如代入非语音事件或者遗失部分语音信号等不利影响,这样大大增加了进行语音分析的难度。因此,作为语音信号处理系统的预处理环节,语音活动检测是实现语音信号处理鲁棒性、改善系统性能的关键技术,具有重要的应用价值。
语音活动检测目的是从一段含噪语音中检测出语音部分。当对一段含噪语音进行语音活动检测时,首先进行预处理,然后进行特征提取,最后根据决策规则来对每一帧数据进行分类,判别出每帧数据是否是语音帧。所以从特征提取和决策规则两个不同的研究角度出发,可以将语音活动检测分为基于特征的语音活动检测方法和基于决策规则的语音活动检测方法。当提取出来的特征能够严格区分语音和非语音时,使用简单的决策规则便可以获得比较好的检测效果;如果决策规则鲁棒性较好,则使用特征的语音/非语音区分能力差同样能够取得较好的检测效果。
1.基于特征的语音活动检测方法
基于特征的语音活动检测方法的关键在于鲁棒特征的提取,即提取的鲁棒特征应对语音/非语音具有较好的区分能力。在这种方法中会使用一些比较简单的决策规则,但特征的鲁棒性是研究者们的主要工作和关注点。近年来,在基于特征的语音检测方法中,具有代表性的特征有:能量特征、谱特征、高阶统计量特征、周期特征和多特征的融合等。通过将这些特征与固定的阈值进行比较,从而做出决策。
在基于特征的语音活动检测当中,短时能量和过零率特征是最经常使用的,但该方法在低信噪比检测环境下检测性能很差。对于语音信号来说,它的周期性特点相较于噪声来说比较显著,即语音信号结构中含有谐波性的成分或准周期性的成分比较显著,这可作为区分语音/非语音的特征,将这个特征进行统计建模并以似然比测试作为决策规则。实验表明,在白噪声环境下可以取得较好的检测效果,但在有色噪声下的检测性能较差。由于高阶统计量具有不易受高斯背景噪声的干扰且能保持相位的特点,三阶、四阶高阶统计量也可作为区分语音/非语音的特征并应用于语音检测当中,但同周期特征一样,对于有色噪声的检测性能同样较差。
基于特征的语音活动检测方法优点在于运算量较小,在信噪比较高的情况下能够具有较好的区分能力,但是在低信噪比的环境下其检测性能急剧下降,并且需要根据特定的情况设定特定的阈值,无法较好的根据环境调整阈值也是基于特征的语音活动检测方法一大缺陷。
2.基于决策规则的语音活动检测方法
基于决策规则的的语音活动检测方法可以分成两类:基于统计模型的语音活动检测方法和基于机器学习的语音活动检测方法。第一类检测方法使用了两种检验假设,即H1和H0,分别表示语音存在和语音不存在,利用适当的统计模型来计算似然比(Likehood Ratio),并将该值与相应的阈值进行决策;基于统计模型的方法能够对声学模型进行很好的建模,但需要对噪声模型进行训练,不能满足实时性的需要。第二类检测方法是将语音检测看成一个二元分类问题,它依赖训练数据来学习噪声和信号的先验知识,并在检测任务中被引用。它可以分为两种:即基于加权学习以及基于模型学习的语音检测方法;基于机器学习的语音活动检测方法具有较好的分类能力,但需要大量的训练数据,来使整个模型趋向最优解。
发明内容
为了解决上述技术的不足之处,本发明提供一种基于向量机框架的多通道语音活动检测方法,通过引入机器学习算法当中分类效果较好的支持向量机算法来对语音/非语音片段进行分类,以贴近人耳特性的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)作为特征,并且在训练模型之前,对多通道语音数据进行波束形成,利用多通道的语音信息,通过波束形成算法来增强语音信号的质量,这样提取的特征参数能更好的反应语音的特征,从而提高语音识别的结果。
一种基于向量机框架的多通道语音活动检测方法,包括以下步骤,
前期准备阶段:将利用麦克风阵列采集到的语音数据分为训练集和测试集两部分,同一
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710499621.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信号处理方法及装置
- 下一篇:用于自主安抚婴儿的系统及方法