[发明专利]语音端点检测方法、装置、设备及计算机存储介质有效
申请号: | 202010089292.6 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111354378B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 邱广;冯大航;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/18;G10L25/30;G10L25/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 设备 计算机 存储 介质 | ||
本申请公开了一种语音端点检测方法、装置、设备及计算机存储介质,属于语音端点检测技术领域。所述方法包括:对音频信号进行处理,得到所述音频信号的频谱图;将所述频谱图输入目标检测模型,所述目标检测模型用于检测所述频谱图中的有效语音部分;获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。解决了相关技术中语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。达到了提高语音端点检测方法准确性的效果。
技术领域
本申请涉及语音端点检测技术领域,特别涉及一种语音端点检测方法、装置、设备及计算机存储介质。
背景技术
语音端点检测(Voice Activity Detection,VAD)是一种用于检测音频信号中有效语音部分的起始位置以及终止位置的方法,是语音增强、语音识别等技术的预处理步骤,有效语音部分是音频信号中有人说话的部分。
相关技术中一种语音端点检测方法,使用能量阈值判断一段音频信号中是否存在有效语音部分,音频信号的能量是背景噪声的能量与有效语音部分的能量的和,当音频信号的能量大于某一预设的阈值,即可认为该段音频信号中存在有效语音部分,进而获取有效语音部分的开始位置与结束位置。
但是,在信噪比较低时,这种语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分。
发明内容
本申请实施例提供了一种语音端点检测方法、装置、设备及计算机存储介质,能够解决相关技术中在信噪比较低时,语音端点检测方法难以准确判断一段音频信号中是否存在有效语音部分的问题。所述技术方案如下:
根据本申请的第一方面,提供了一种语音端点检测方法,所述语音端点检测方法包括:
对音频信号进行处理,得到所述音频信号的频谱图;
将所述频谱图输入目标检测模型,所述目标检测模型用于检测所述频谱图中的有效语音部分;
获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。
可选的,所述将所述频谱图输入目标检测模型之前,包括:
获取初始目标检测模型;
获取训练数据,所述训练数据包括样本频谱图,所述样本频谱图具有多个先验框以及与所述多个先验框一一对应的损失函数,所述多个先验框包括多个正样本和多个负样本,所述正样本为有效语音部分大于阈值的先验框,所述负样本为有效语音部分不大于所述阈值的先验框;
根据所述训练数据对所述初始目标检测模型进行训练,得到所述目标检测模型。
可选的,所述获取训练数据, 包括:
获取所述样本频谱图,所述样本频谱图具有多个先验框;
根据损失函数公式确定与所述多个先验框一一对应的损失函数,所述损失函数公式包括:
L(x,c,l,g)=(Lconf(x,c)/N+αLloc(x,l,g));
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089292.6/2.html,转载请声明来源钻瓜专利网。