[发明专利]一种人声起止时间检测方法及装置有效

申请号：	201911407236.6	申请日：	2019-12-31
公开（公告）号：	CN111028858B	公开（公告）日：	2022-02-18
发明（设计）人：	李庆龙;关海欣	申请（专利权）人：	云知声智能科技股份有限公司
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L25/87
代理公司：	北京冠和权律师事务所 11399	代理人：	张楠楠
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人声起止时间检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种人声起止时间检测方法及装置，包括：利用带噪的预设语音生成预设语音的第一倒谱特征，基于第一倒谱特征获得预测掩蔽值；根据预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络；利用训练后的第一神经网络得到带噪的预设VAD语音的预测mask值；根据预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络；获取带噪的当前VAD语音，基于训练后的第一神经网络和训练后的第二神经网络获得带噪的当前VAD语音的起止时间。通过对带噪的VAD语音进行加降噪处理然后获得VAD标签进而确定上述VAD标签里人声的起止时间，排除了语音中的噪音成分，从根本上提高了整个过程的稳定性和获取结果的准确性。

技术领域

本发明涉及语音数据处理技术领域，尤其涉及一种人声起止时间检测方法及装置。

背景技术

目前，语音通话功能、录音功能和音乐播放功能等是目前移动终端上的常用功能，由于在上述功能的运行过程中会在人声中间夹杂无声的片段、使得用户体验效果不佳。基于上述难题，现有技术的基于深度学习的方法通过利用带噪语音的频谱特征及其变种作为输入，得到该帧语音的标签。这种方法存在以下缺点：在有复杂噪声情况下的性能很差导致信噪比很低，在这种环境下不能准确的判断语音的VAD(语音端点检测)标签，进而无法确定语音中人声的开始时间和结束时间，效果不佳且稳定性低。

发明内容

针对上述所显示出来的问题，本方法基于预先训练降噪模型然后利用降噪模型对带噪的预设VAD语音进行降噪的同时得到预测mask值，根据预测mask值训练VAD模型然后利用训练后的VAD模型提取带噪的当前VAD标签进而确定带噪的当前VAD语音中的人声开始时间和结束时间。

一种人声起止时间检测方法，包括以下步骤：

利用带噪的预设语音生成所述预设语音的第一倒谱特征，基于所述第一倒谱特征获得预测掩蔽值；

根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络；

利用所述训练后的第一神经网络得到带噪的预设VAD语音的预测mask值；

根据所述预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络；

获取带噪的当前VAD语音，基于所述训练后的第一神经网络和所述训练后的第二神经网络获得所述带噪的当前VAD语音的起止时间。

优选的，所述利用带噪的预设语音生成所述预设语音的第一倒谱特征，基于所述第一倒谱特征获得预测掩蔽值，包括：

获取多个带噪的预设语音；

利用下列公式提取所述第一倒谱特征：

cepstral＝ISTFT(log(STFT(mixture)))；