[发明专利]用于执行话音活动检测的方法和设备有效

专利信息
申请号: 201080041703.9 申请日: 2010-12-24
公开(公告)号: CN102971789A 公开(公告)日: 2013-03-13
发明(设计)人: 王喆 申请(专利权)人: 华为技术有限公司
主分类号: G10L25/78 分类号: G10L25/78
代理公司: 暂无信息 代理人: 暂无信息
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 执行 话音 活动 检测 方法 设备
【说明书】:

技术领域

发明涉及一种用于执行话音活动检测的方法和设备,特别地,涉及一种具有至少两个不同的工作状态的使用非线性处理的子带分段信噪比参数的话音活动检测设备。

背景技术

话音活动检测(VAD)总地来说是一种供检测信号中的话音活动的技术。话音活动检测也被称为语音活动检测,或者被简称为语音检测。VAD的功能是在通信信道中检测例如语音或音乐等有源信号的有无。因此网络可决定在不存在有源信号的周期中压缩传输带宽,或者根据是否存在有源信号而执行其它处理。在VAD中,可将从输入音频信号中提取的特征参数或特征参数集与对应的阈值进行比较,以基于比较结果来确定所述输入音频信号是否为有源信号。已关于VAD建议了许多参数。一般来说,已知基于能量的参数提供良好的性能。因此,近些年来,作为一种基于能量的参数的基于子带SNR的参数已广泛用于VAD。不论话音活动检测器使用哪种特征参数或哪些特征参数,这些参数都在语音突发偏移时展现弱语音特性,因此增加了误检测语音偏移的可能性。通常,为了确保正确检测语音偏移,常规话音活动检测器在语音偏移时执行某一特殊处理。进行此特殊处理的常规方式是在语音偏移时将“硬”释放延迟(“hard”hangover)应用于VAD决策,其中在语音偏移时迫使由话音活动检测器检测为非主动的帧的第一群组成为主动。另一可能性是在语音偏移时将“软”释放延迟应用于话音活动检测决策。在应用软释放延迟时,在语音偏移时调整VAD决策阈值,以支持针对音频信号的第一若干个偏移帧的语音检测。因此,在此常规话音活动检测器中,当输入信号为非语音偏移信号时,以正常方式作出VAD决策,而在偏移状态下,以有利于语音检测的方式来作出VAD决策。

尽管为了确保正确检测语音偏移的硬释放延迟过程的应用可顺利帮助减少在语音偏移时的误检测的可能性,但硬释放延迟方案缺乏效率。将不必要地迫使许多真正非主动帧变得主动,因此降低VAD整体性能。另一方面,尽管如(例如)由G.718 ITU-T标准化话音活动检测器所使用的软释放延迟处理方案将释放延迟效率改进到较高等级,但仍可改进VAD性能。

因此,本发明的目的是为VAD提供一种与常规VAD设备和方法相比提供较高VAD性能的方法和设备。

发明内容

根据本发明的第一方面,提供了一种用于为输入音频信号确定VAD决策(VADD)的话音活动检测(VAD)设备,

其中所述VAD设备包括

状态检测器,其适于根据所述输入音频信号来确定所述VAD设备的至少两个不同工作状态中的当前工作状态(WS),

其中所述至少两个不同工作状态(WS)中的每一者与对应的工作状态参数决策集(WSPDS)相关联,所述工作状态参数决策集(WSPDS)包含至少一个VAD参数(VADP);以及

话音活动计算器,其适于为与当前工作状态(WS)相关联的工作状态参数决策集(WSPDS)的VAD参数(VADP)计算VAD参数值,且适于通过将所计算出的VAD参数值与阈值进行比较来确定所述VAD决策(VADD)。

因此,根据本发明的第一方面的VAD设备包括一个以上工作状态(WS)。根据本发明的第一方面的VAD设备使用至少两个不同的参数或两个不同的参数集来用于针对不同的工作状态作出VAD决策。

在一可能实施方案中,VAD参数可具有相同的大体形式,但可包括不同的因子。在一可能实施方案中,所述不同的VAD参数可包括基于经修改的子带分段信噪比(SNR)的参数,所述基于经修改的子带分段信噪比(SNR)的参数经不同方式的非线性处理。

根据本发明的第一方面的VAD设备所使用的工作状态的数目可变化。在VAD设备的一可能实施方案中,所述设备包括两个不同的工作状态,即,正常工作状态(NWS)和偏移工作状态(OWS)。

在根据本发明的第一方面的VAD设备的一可能实施方案中,针对VAD设备的每一工作状态(WS)而提供对应的工作状态参数决策集(WSPDS),其各自包括至少一个VAD参数(VADP)。VAD参数(VADP)的数目和类型可针对根据本发明的第一方面的VAD设备的不同工作状态(WS)的不同的工作状态参数决策集(WSPDS)而变化。

在根据本发明的第一方面的VAD设备的一可能实施方案中,通过使用基于子带分段信噪比(SNR)的VAD参数(VADP)来确定或计算由所述话音活动计算器确定的VAD决策(VADD)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080041703.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top