[发明专利]一种语音活动检测方法及装置在审
| 申请号: | 201410217411.6 | 申请日: | 2014-05-22 |
| 公开(公告)号: | CN104036777A | 公开(公告)日: | 2014-09-10 |
| 发明(设计)人: | 何勇军;孙广路;谢怡宁;郑云龙 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/0308 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李迪 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 活动 检测 方法 装置 | ||
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音活动检测方法及装置。
背景技术
分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音,这一任务被称为语音活动检测(Voice activity detection,VAD)。该技术在语音处理领域中具有重要作用,且在很大程度上影响着其他应用技术的性能,典型的有鲁棒语音识别,说话人识别,语音编程和传输,以及联合降噪和回波消除等。
传统的VAD的基本方法有G.729标准等,G.729标准计算线光谱频率,全频段能量,低频段能量(<1khz),和过零率。然后设定门限对信号的每一帧进行简单的分类,同时还用平滑和自适应的校正来提高分类的准确性。
尽管上述方法在无噪环境下能取得满意的性能,但在噪声环境下,其性能将急剧降低。为解决这一问题,一些研究者提出了基于统计模型的语音活动检测算法。典型的将假设噪声和语音信号的频谱系数能用复杂的高斯随机变量来建模,从而发展了基于似然比检验的语音活动检测算法。后来,又有许多研究者想通过为语音信号假设不同的统计模型来提高基于统计模型的语音活动检测算法的性能。例如有高斯模型、拉普拉斯模型、信噪比测量、多个观测似然比检验、广义伽马分布模型、马尔可夫模型等。
这些方法在稳定的噪声环境下有很好的表现,但在变化的噪声的条件下,其性能仍然难以满足现实实用的要求。为解决这一问题,研究者们进一步提出了声学事件检测(AED)技术,转换卡尔曼滤波器(SKF)和聚类算法(如谱聚类)的方法等等。
近年来,随着稀疏分解与重构理论的成熟,稀疏编码(Sparse Coding)在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示,获得信号的稀疏表示(Sparse Representation)。其中,每个基元信号称为一个原子(Atom),所有原子组成的集合称为原子字典(Atom Dictionary)。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性。
形态成分分析(Morphological Component Analysis,MCA)就是一种基于信号稀疏表示的分离方法。这种方法假设对于混合信号中的每一个信号源,都存在这相应的字典,能够稀疏表示该信号,并且其他信号不能用该字典稀疏表示。在含有噪声的情况下,MCA是一种有效的稀疏表示方法。基于K奇异值分解(KSVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法,相比传统的算法具有较小的计算量和更好的表现。
发明内容
(一)要解决的技术问题
本发明的目的是提供一种语音活动检测方法及装置,以解决现有技术在变化的噪声条件下语音活动检测的检测鲁棒性差的问题。
(二)技术方案
为了达到上述目的,本发明提出了一种语音活动检测方法,该方法包括以下步骤:
提取干净语音信号的信号特征和混噪语音信号的信号特征;
根据所述干净语音信号的信号特征进行字典训练得到语音字典;
根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
优选地,提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括:
对干净语音的离散时间信号进行预处理;
将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;
对混噪语音的离散时间信号进行预处理;
将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
优选地,预处理具体包括:对离散时间信号进行分帧,并对分帧处理后的帧信号进行加窗。
优选地,根据干净语音信号的信号特征进行字典训练得到语音字典具体包括:
利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φs,计算公式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410217411.6/2.html,转载请声明来源钻瓜专利网。





