[发明专利]一种语音活动检测方法及装置在审

申请号：	201410217411.6	申请日：	2014-05-22
公开（公告）号：	CN104036777A	公开（公告）日：	2014-09-10
发明（设计）人：	何勇军;孙广路;谢怡宁;郑云龙	申请（专利权）人：	哈尔滨理工大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L21/0308
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李迪
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音活动检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音活动检测方法及装置。

背景技术

分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音，这一任务被称为语音活动检测(Voice activity detection，VAD)。该技术在语音处理领域中具有重要作用，且在很大程度上影响着其他应用技术的性能，典型的有鲁棒语音识别，说话人识别，语音编程和传输，以及联合降噪和回波消除等。

传统的VAD的基本方法有G.729标准等，G.729标准计算线光谱频率，全频段能量，低频段能量(<1khz)，和过零率。然后设定门限对信号的每一帧进行简单的分类，同时还用平滑和自适应的校正来提高分类的准确性。

尽管上述方法在无噪环境下能取得满意的性能，但在噪声环境下，其性能将急剧降低。为解决这一问题，一些研究者提出了基于统计模型的语音活动检测算法。典型的将假设噪声和语音信号的频谱系数能用复杂的高斯随机变量来建模，从而发展了基于似然比检验的语音活动检测算法。后来，又有许多研究者想通过为语音信号假设不同的统计模型来提高基于统计模型的语音活动检测算法的性能。例如有高斯模型、拉普拉斯模型、信噪比测量、多个观测似然比检验、广义伽马分布模型、马尔可夫模型等。

这些方法在稳定的噪声环境下有很好的表现，但在变化的噪声的条件下，其性能仍然难以满足现实实用的要求。为解决这一问题，研究者们进一步提出了声学事件检测(AED)技术，转换卡尔曼滤波器(SKF)和聚类算法(如谱聚类)的方法等等。

近年来，随着稀疏分解与重构理论的成熟，稀疏编码(Sparse Coding)在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示，获得信号的稀疏表示(Sparse Representation)。其中，每个基元信号称为一个原子(Atom)，所有原子组成的集合称为原子字典(Atom Dictionary)。现实中的大量信号，如语音、图像等都满足或近似满足稀疏性。

形态成分分析(Morphological Component Analysis,MCA)就是一种基于信号稀疏表示的分离方法。这种方法假设对于混合信号中的每一个信号源，都存在这相应的字典，能够稀疏表示该信号，并且其他信号不能用该字典稀疏表示。在含有噪声的情况下，MCA是一种有效的稀疏表示方法。基于K奇异值分解(KSVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法，相比传统的算法具有较小的计算量和更好的表现。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种语音活动检测方法及装置，以解决现有技术在变化的噪声条件下语音活动检测的检测鲁棒性差的问题。

(二)技术方案

为了达到上述目的，本发明提出了一种语音活动检测方法，该方法包括以下步骤：

提取干净语音信号的信号特征和混噪语音信号的信号特征；

根据所述干净语音信号的信号特征进行字典训练得到语音字典；

根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；

根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；

提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。

优选地，提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括：

对干净语音的离散时间信号进行预处理；