[发明专利]一种基于GMM模型的语音激活检测方法在审
申请号: | 201710453487.2 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107134277A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 羊开云;高可攀;韩翀蛟;徐晓峰;李夏宾 | 申请(专利权)人: | 深圳市潮流网络技术有限公司;潮流网络有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gmm 模型 语音 激活 检测 方法 | ||
技术领域
本发明属于音频处理技术领域,尤其涉及VoIP通讯过程的音频处理技术。
背景技术
随着VoIP及视频会议技术的不断发展创新,VoIP、视频会议已成为公司日常工作沟通和交流的重要手段,因此长时间的视频会议,语音会议司空见惯。在会议间隙不免可能会有长时间的资料整理,录入,调试等工作,这段时间没有人说话,但是由于与会者离VoIP终端较近,会导致对端听到键盘敲击声,纸张翻阅,或者其他的的较大的噪声,对对端造成干扰。为了避免上述尴尬的发生,本发明提出一种语音激活检测方法,其对语音通话中特定噪声检测并做相应处理,当有人重新说话时,则开启正常通话模式。
现有的语音激活检测方法,大多只能区别比较小的背景噪音与语音,对于键盘敲击等特定的较大的噪声,则无法判别。本发明提出基于对语音信号和特定噪声分别用GMM(Gaussian Mixture Model,高斯混合模型)训练模型并用于检测区别语音信号与特定噪声的语音激活检测方法。
发明内容
本发明的目的在于提供一种基于GMM模型的语音激活检测方法, 为了实现在VoIP通话过程中在无人说话时对特定的噪声信号进行噪声处理,以减少通话间隙长时间无人说话时,一些噪声对对端与会者造成干扰。
为了实现上述发明目的,本发明一种基于GMM模型的语音激活检测方法,主要包括以下操作:数据训练:建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型;数据测试:对实时通话进行检测,包括:分帧处理、特征提取、概率计算;数据判断:根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。
优选的,该数据训练进一步包括:步骤1-a:收集语音信号样本集和噪声信号样本集,对语音信号样本集和噪声信号样本集中的音频文件分别进行分帧,语音帧信号集记为,噪声帧信号集记为;步骤1-b:提取用于GMM训练的特征集,即对语音帧信号集提取的语音特征集记为,对噪声帧信号集提取的噪声特征集记为;步骤1-c:对语音特征集、噪声特征集进行GMM训练,分别得到:语音模型GMM参数集、噪声模型GMM参数集。
优选的,该数据测试包括:步骤2-a:对测试信号分帧处理;步骤2-b:对测试信号提取用于GMM测试的特征集,记为测试特征集;步骤2-c:分别计算语音信号概率和噪声信号概率。
优选的,语音信号概率是根据测试特征集和语音模型GMM参数集计算所得;噪声信号概率是根据测试特征集和噪声模型GMM参数集计算所得。
优选的,语音帧信号集包含10ms长度的帧语音信号;噪声帧信号集包含10ms长度的帧噪声信号,为语音信号帧总数以及噪声信号帧总数。
优选的,语音特征集包括所有语音帧信号提取的特征集集合,是对中的每一帧语音信号提取基音频率特征和时域特征;噪声特征集包括所有噪声帧信号提取的特征集集合,是对中的每一帧噪声信号提取基音频率特征和时域特征。
优选的,数据训练还包括:提取训练特征操作,记为第帧语音信号,其为时域采样点的集合,记为,其中为10ms一帧信号包含的时域采样点总数,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,即,其中,由现有的基音检测技术,即对自相关系数求峰值得到,为第一个LPC(线性预测编码)系数,LPC为现有的较为成熟的语音线性预测编码技术,其他三个特征的计算公式分别如下:,其中为符号函数,即;;。
优选的,对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧语音信号的特征集,并对用GMM训练器训练语音信号模型参数;对整理为GMM模型训练算法的输入矩阵形式,即,每一行对应每一帧噪声信号的特征集,并对用GMM训练器训练噪声信号模型参数。
优选的,数据测试包括:步骤2-a:对测试信号提取基音频率特征和时域特征,由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成,记为, ;步骤2-b:用多维高斯概率密度计算公式,根据及训练部分的,计算测试帧信号为语音信号的概率,根据及训练部分的计算测试帧信号为噪声信号的概率,其计算公式如下:,。
优选的,数据判断包括:根据及判别所述测试帧信号为语音信号还是噪声信号,若则判别为语音信号,否则判别为噪声信号;对判别为语音信号的帧信号保持正常通话模式,对判别为噪声信号的帧信号则进行相应处理。
本发明提供的方案在会议通话过程中,有效监测通话信号为噪声信号还是语音信号,从而对无效噪声信号进行相应处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市潮流网络技术有限公司;潮流网络有限公司,未经深圳市潮流网络技术有限公司;潮流网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710453487.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种竹二胡
- 下一篇:联系人的语音查找方法及其装置