[发明专利]语音活动检测及其模型建立方法、装置、设备及存储介质有效
申请号: | 201710824269.5 | 申请日: | 2017-09-13 |
公开(公告)号: | CN108346428B | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 刘海波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L25/78 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 活动 检测 及其 模型 建立 方法 装置 设备 存储 介质 | ||
1.一种语音活动检测模型建立方法,包括:
获取训练音频文件及所述训练音频文件的目标结果;所述目标结果包括至少两个语音类或/及至少两个噪音类;所述至少两个语音类属于语音类别中不同的类,所述至少两个噪音类属于噪音类别中不同的类,所述目标结果根据所述至少两个语音类或所述至少两个噪音类中相同类别的和对应的得分得到;
对所述训练音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征,所述音频特征包括至少两种特征,所述至少两种特征包括能量,以及过零率、均值、方差中的至少一种;
将所述音频特征作为深度神经网络模型的输入,经过所述深度神经网络模型的隐藏层进行信息处理,由所述深度神经网络模型的输出层输出,得到训练结果;
将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入,对所述隐藏层的权重分别进行更新,直至所述深度神经网络模型达到预设条件得到语音活动检测模型。
2.根据权利要求1所述的语音活动检测模型建立方法,其特征在于:所述误差反向传播机制包括误差反向传播算法;所述预设条件包括通过损失函数确定深度神经网络模型达到最优。
3.根据权利要求1所述的语音活动检测模型建立方法,其特征在于,所述音频特征为融合音频特征;所述融合音频特征包括至少两项独立音频特征,所述独立音频特征包括能量,以及过零率、均值、方差中的至少一种;所述提取每一音频帧的音频特征的步骤,包括:
提取每一音频帧的独立音频特征;
对各所述独立音频特征进行融合得到所述融合音频特征。
4.根据权利要求1-3任意一项所述的语音活动检测模型建立方法,其特征在于,所述音频特征为扩展帧音频特征;所述扩展帧音频特征包括当前帧的单帧音频特征、以及所述当前帧之前第一预设数量帧的单帧音频特征或/及所述当前帧之后第二预设数量帧的单帧音频特征;
所述提取每一音频帧的音频特征的步骤,包括:
提取每一音频帧的所述单帧音频特征;
将当前帧的所述单帧音频特帧,以及所述当前帧之前第一预设数量帧的所述单帧音频特征或/及所述当前帧之后第二预设数量帧的所述单帧音频特征,作为所述当前帧的所述扩展帧音频特征;
分别将每一音频帧作为所述当前帧得到每一音频帧的扩展音频特征。
5.一种语音活动检测方法,包括:
获取待检测音频文件;
对所述待检测音频文件进行分帧得到音频帧,并提取所述音频帧的音频特征;
获取基于权利要求1-4任意一项所述的语音活动检测模型建立方法得到的语音活动检测模型;
将所述音频特征输入至所述语音活动检测模型,得到检测结果。
6.根据权利要求5所述的语音活动检测方法,其特征在于,所述将所述音频特征输入至所述语音活动检测模型,得到检测结果的步骤,包括:
将所述音频特征输入至所述语音活动检测模块,得到所述待检测音频文件的各音频帧的帧检测结果;
对所述待检测音频文件中各所述帧检测结果进行平滑处理,得到所述待检测音频文件的检测结果。
7.根据权利要求6所述的语音活动检测方法,其特征在于,所述得到所述待检测音频文件的检测结果的步骤之后,还包括:
根据所述检测结果确定所述待检测音频文件中的语音起始点和语音结束点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710824269.5/1.html,转载请声明来源钻瓜专利网。