[发明专利]一种实时语音端点检测方法及装置有效

申请号：	201811491292.8	申请日：	2018-12-07
公开（公告）号：	CN109545188B	公开（公告）日：	2021-07-09
发明（设计）人：	张虎	申请（专利权）人：	深圳市友杰智新科技有限公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L25/03;G10L25/21;G10L25/51;G10L25/78
代理公司：	深圳市深可信专利代理有限公司 44599	代理人：	刘昌刚
地址：	518000 广东省深圳市南山区招商***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实时语音端点检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音技术领域，具体地说，涉及一种实时语音端点检测方法及装置，方法包括以下步骤：信号分帧、加重；去脉冲处理；去除直流成分；计算每帧信号的短时能量和过零率；加窗处理；减谱处理；计算谱熵；计算变换平滑谱熵；语音帧和噪声帧初步判断；变换平滑谱熵与阈值的处理；语音段起始帧、结束帧判断；本发明根据信号是根据何种条件判断出来以及判断的结果，加权更新减谱阈值、变换平滑谱熵、相应的短时能量、相应的短时平均能量、减谱功率谱等参数的阈值，以使各阈值越来越准确，最终判断出的语音起始帧、结束帧也越来越准确；本发明能高效、准确地实时检测语音。

技术领域

本发明涉及语音技术领域，具体地说，涉及一种实时语音端点检测方法及装置。

背景技术

语音活性检测(VAD)，即在信号中检测出语音段，也即是语音端点检测技术。端点检测在语音信号处理领域中一直有着重要的意义。作为语音识别的前端，准确的端点检测可以提高识别的准确率；用于语音增强系统中，可以进行准确的噪声模型估计；在语音编码领域中可以降低编码的平均比特率并降低功耗。

目前，端点检测大体上可以分为两类：基于模型的检测方法和基于特征的检测方法。

基于模型的方法是以数据统计分析为基础建立一个能够更好刻画语音信号内部联系的模型，常见的有基于隐马尔科夫模型(HMM)、矢量量化(vector quantization，VQ)和支持向量机(support vector machine，SVM)等端点检测方法。该方法过程比较复杂、运算量大，并且实际应用环境复杂多变，噪声多种多样，建立的语音和噪声模型对环境的适应性比较差，检测准确率达不到实际应用的需求。比如：CN20141077954中公开的语音端点检测方法和装置、CN201510587721中公开的基于统计模型的语音端点检测方法及装置、CN201610192489中公开的语音端点检测方法及装置、CN201710076757中公开的一种语音端点检测方法及语音识别方法、CN201610886934中公开的一种语音激活检测方法及装置，这些检测方法都需要大量的训练。

基于特征的方法，一般都是在较高的信噪比下均能给出较高的检测率，但是在低信噪比下却不够理想。传统的能量和过零率特征在低信噪比下已不再适用。许多新的特征被提出，比如：倒谱、线性预测编码系数、基频及谐波特性、频带方差、频域能量、差分能量、幅度差、差分过零率、高阶统计量特征、高频能量和低频能量的特征等等。以上的多种特征在低信噪比噪下检测准确度仍然不够理想。比如：

1、基于单一参数的：CN200710179342中公开的一种孤立词语音端点检测的方法及系统，基于平均能量，对于强噪，能量法无法区分；CN201110071269中公开的一种语音识别的端点检测方法，基于线性预测编码系数，判断参数单一，需要背景噪声和语音的模板，对于变化的噪声和语音难以检测；

2、基于少量一些参数组合，但是参数并不是很好区分噪声和语音，或者不是很好计算的：CN200410083807中公开的基于滑动窗口的端点检测方法、装置和语音识别系统，主要是基于能量和信噪比，属于比较粗略的方法，信噪比难以估计准确，强噪基本都难以区分；CN200410090802中公开的一种应用于语音识别系统的语音端点检测方法，逐帧判断，频带划分不同信噪比的子带，再根据谐波特性来判断起始帧，同样，信噪比难于估计准确，判断参数较少；CN201410221983中公开的基于基频的端点检测系统及其处理方法，基于基频，以及基频的谐波位置辅助，基频位置确定容易出错，对于一些频谱成分及其丰富的强噪，比如强白噪，无法区分，判断参数还是比较少；

3、基于信息熵、谱熵这种容易计算且能很好区分噪声和语音的参数，并且和其他参数结合，参数较多的：CN201410292519中公开的一种利用短时时频值的自适应端点检测方法，基于短时能量、短时信息熵和短时幅度相对值，信息熵是逐频点处理，误差较大，计算量大；CN201710086400中公开的一种低信噪比环境下基于谱熵改进的语音端点检测方法，主要基于子带谱熵和能量比值，但是子带不是自适应划分，未加异常子带处理，并且未加平滑等处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司，未经深圳市友杰智新科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811491292.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种显示控制方法及终端
下一篇：一种基于机器学习的口语发音检错与纠正系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种实时语音端点检测方法及装置有效

专利文献下载