[发明专利]一种人声起止时间检测方法及装置有效
| 申请号: | 201911407236.6 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111028858B | 公开(公告)日: | 2022-02-18 |
| 发明(设计)人: | 李庆龙;关海欣 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
| 主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/30;G10L25/87 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人声 起止 时间 检测 方法 装置 | ||
本发明公开了一种人声起止时间检测方法及装置,包括:利用带噪的预设语音生成预设语音的第一倒谱特征,基于第一倒谱特征获得预测掩蔽值;根据预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;利用训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;根据预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;获取带噪的当前VAD语音,基于训练后的第一神经网络和训练后的第二神经网络获得带噪的当前VAD语音的起止时间。通过对带噪的VAD语音进行加降噪处理然后获得VAD标签进而确定上述VAD标签里人声的起止时间,排除了语音中的噪音成分,从根本上提高了整个过程的稳定性和获取结果的准确性。
技术领域
本发明涉及语音数据处理技术领域,尤其涉及一种人声起止时间检测方法及装置。
背景技术
目前,语音通话功能、录音功能和音乐播放功能等是目前移动终端上的常用功能,由于在上述功能的运行过程中会在人声中间夹杂无声的片段、使得用户体验效果不佳。基于上述难题,现有技术的基于深度学习的方法通过利用带噪语音的频谱特征及其变种作为输入,得到该帧语音的标签。这种方法存在以下缺点:在有复杂噪声情况下的性能很差导致信噪比很低,在这种环境下不能准确的判断语音的VAD(语音端点检测)标签,进而无法确定语音中人声的开始时间和结束时间,效果不佳且稳定性低。
发明内容
针对上述所显示出来的问题,本方法基于预先训练降噪模型然后利用降噪模型对带噪的预设VAD语音进行降噪的同时得到预测mask值,根据预测mask值训练VAD模型然后利用训练后的VAD模型提取带噪的当前VAD标签进而确定带噪的当前VAD语音中的人声开始时间和结束时间。
一种人声起止时间检测方法,包括以下步骤:
利用带噪的预设语音生成所述预设语音的第一倒谱特征,基于所述第一倒谱特征获得预测掩蔽值;
根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;
利用所述训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;
根据所述预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;
获取带噪的当前VAD语音,基于所述训练后的第一神经网络和所述训练后的第二神经网络获得所述带噪的当前VAD语音的起止时间。
优选的,所述利用带噪的预设语音生成所述预设语音的第一倒谱特征,基于所述第一倒谱特征获得预测掩蔽值,包括:
获取多个带噪的预设语音;
利用下列公式提取所述第一倒谱特征:
cepstral=ISTFT(log(STFT(mixture)));
其中,所述STFT()为短时傅里叶变换,所述ISTFT为短时逆傅里叶变换,所述mixture为带噪的预设语音;
将所述第一倒谱特征输入到所述第一预设神经网络中以计算所述预测掩蔽值。
优选的,所述根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络,包括:
获取多个纯净的预设语音;所述多个纯净的预设语音与所述多个带噪的预设语音相对应;
利用下列公式计算实际掩蔽值:
其中,所述pure为纯净的预设语音,所述θ为相位,|xx|为幅度;
计算所述实际掩蔽值和所述预测掩蔽值的差值;
通过前馈算法和所述差值对所述第一预设神经网络进行训练进而生成所述训练后的第一神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911407236.6/2.html,转载请声明来源钻瓜专利网。





