[发明专利]一种语音活动检测方法及装置在审
| 申请号: | 201410217411.6 | 申请日: | 2014-05-22 |
| 公开(公告)号: | CN104036777A | 公开(公告)日: | 2014-09-10 |
| 发明(设计)人: | 何勇军;孙广路;谢怡宁;郑云龙 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/0308 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李迪 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 活动 检测 方法 装置 | ||
1.一种语音活动检测方法,其特征在于,包括:
提取干净语音信号的信号特征和混噪语音信号的信号特征;
根据所述干净语音信号的信号特征进行字典训练得到语音字典;
根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
2.如权利要求1所述的方法,其特征在于,所述提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括:
对干净语音的离散时间信号进行预处理;
将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;
对混噪语音的离散时间信号进行预处理;
将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
3.如权利要求2所述的方法,其特征在于,预处理具体包括:对离散时间信号进行分帧,并对分帧处理后的帧信号进行加窗。
4.如权利要求1所述的方法,其特征在于,所述根据干净语音信号的信号特征进行字典训练得到语音字典具体包括:
利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φs,计算公式如下所示:
其中,是由M个干净语音信号的帧组成的训练用的信号特征,X=[x1,x2,...,xM]是相对于Ys的一组稀疏向量集,T0是训练语音字典的稀疏的预设限制门限。
5.如权利要求1所述的方法,其特征在于,所述根据混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括:
根据所述混噪语音信号的信号特征进行字典训练得到混噪字典;
提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典;
根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示,从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据;
提取更新后的所述噪声训练数据的信号特征进行字典训练更新所述初始噪声字典,得到噪声字典。
6.如权利要求1所述的方法,其特征在于,所述根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括:
将所述语音字典和噪声字典进行字典拼接生成原子字典;
根据所述原子字典利用形态成分分析MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
7.如权利要求6所述的方法,其特征在于,所述提取稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括:
提取所述语音字典的稀疏系数;
将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410217411.6/1.html,转载请声明来源钻瓜专利网。





