[发明专利]一种双门限地名语音端点检测方法有效
申请号: | 201611135819.4 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106847270B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 谢巍;董万里 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/05 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 门限 地名 语音 端点 检测 方法 | ||
1.一种双门限地名语音端点检测方法,其特征在于,包括以下步骤:从第一帧信号开始判断每帧语音信号的能量与最低能量阈值、最高能量阈值的大小,判断过零率与过零率阈值的大小,从而确定对下一帧信号进行检测的合适方法,并在可能进入语音状态的情况下,通过增加变量来对语音段前面出现的发音轻时间段的语音信号进行保留;具体步骤如下:
(1)、接收经过预处理的地名语音信号,判断每帧语音信号的能量与最低能量阈值、最高能量阈值的大小以及判断过零率与过零率阈值的大小;
(2)、当第i帧语音信号的能量<最低能量阈值时,将状态变量设置为0,语音长度计数变量设置成0,表明仍处于静音段,继续返回步骤(1)进行下一帧检测;
当最高能量阈值>第i帧语音信号的能量>最低能量阈值,且过零率>过零率阈值,将状态变量设置为1,表明可能处于语音段,将语音长度计数变量加1,同时将可能处于语音段的长度的变量加1,并返回步骤(1)进行下一帧检测;
(3)、若已经有状态变量为1,则对可能处于语音段的语音信号按照一定的标准进行筛选,进一步区分噪音段和语音段;
(4)、当第i帧语音信号的能量>最高能量阈值,则将状态变量设置为2,表示进入语音段,同时将语音长度计数变量加1,按照步骤(5)进行下一帧检测;
(5)、判断当前帧语音信号的能量>最低能量阈值或当前帧语音信号的过零率>过零率阈值是否成立;
若成立,表示还在语音段,不是静音,将状态变量保持为2,语音长度计数变量加1,按照步骤(5)继续下一帧检测;
若不成立,说明信号已经从语音段转向静音段,则将静音长度加1,并对静音长度作进一步判断;直到找到全部有效的语音信号,将状态参数设置为3,结束进程。
2.根据权利要求1所述的双门限地名语音端点检测方法,其特征在于,步骤(3)中,所述按照一定的标准进行筛选,进一步区分噪音段和语音段,具体如下:若已经有状态变量为1,且语音信号的能量小于最低能量阈值时,判断可能处于语音段的长度的变量大于一定阈值是否成立,若成立,表示当前是噪音段,舍弃前面的语音部分,令状态变量,语音长度计数变量和可能处于语音段的长度的变量等于0并返回步骤(1)继续下一帧检测;若不成立,则表示可能还在语音段,保持状态变量等于1且将语音长度计数变量加1,可能处于语音段的长度的变量加1,返回步骤(1)进行下一帧检测。
3.根据权利要求2所述的双门限地名语音端点检测方法,其特征在于,所述一定阈值等于6。
4.根据权利要求1所述的双门限地名语音端点检测方法,其特征在于,步骤(5)中对静音长度作进一步判断的步骤是:判断静音长度<最大静音长度是否成立;
若成立,则保持状态变量为2,将语音长度计数变量加1,并按照步骤(5)进行下一帧检测;
若不成立,则判断语音长度计数变量<语音信号最小长度是否成立;若语音长度计数变量<语音信号最小长度成立,表明前面检测出来的都是噪声,将状态变量设置为0、静音段长度设置为0、语音长度计数变量设置为0,再继续检验,即继续向后检测有效语音段;若语音长度计数变量<语音信号最小长度不成立,表示语音段已经找到,认为是有效的语音信号,将状态参数设置为3,结束进程。
5.根据权利要求1所述的双门限地名语音端点检测方法,其特征在于,初始状态下,令状态变量等于0,语音长度计数变量等于0,用于计算未确定进入语音段时可能处于语音段的长度的变量等于0,静音长度等于0。
6.根据权利要求1所述的双门限地名语音端点检测方法,其特征在于,所述最低能量阈值的值为0.01,最高能量阈值的值是0.1,过零率阈值为100。
7.根据权利要求4所述的双门限地名语音端点检测方法,其特征在于,所述最大静音长度等于10,所述语音信号最小长度等于5。
8.根据权利要求1所述的双门限地名语音端点检测方法,其特征在于,预处理过程包括预加重处理及分帧处理。
9.根据权利要求8所述的双门限地名语音端点检测方法,其特征在于,预加重处理是通过具有6dB/倍频程的提升高频特性的数字滤波器来实现,所述高通滤波器满足H(z)=1-μz-1,μ=0.97;按照帧长256,帧移128对语音信号进行分帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611135819.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏瓦
- 下一篇:一种单向复合屋面板机构