[发明专利]语音端点检测方法、装置、设备及计算机存储介质有效
申请号: | 202010089292.6 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111354378B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 邱广;冯大航;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/18;G10L25/30;G10L25/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 设备 计算机 存储 介质 | ||
1.一种语音端点检测方法,其特征在于,所述方法包括:
对音频信号进行处理,得到所述音频信号的频谱图;
将所述频谱图输入目标检测模型,所述目标检测模型用于检测所述频谱图中的有效语音部分;
获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。
2.根据权利要求1所述的方法,其特征在于,所述将所述频谱图输入目标检测模型之前,包括:
获取初始目标检测模型;
获取训练数据,所述训练数据包括样本频谱图,所述样本频谱图具有多个先验框以及与所述多个先验框一一对应的损失函数,所述多个先验框包括多个正样本和多个负样本,所述正样本为有效语音部分大于阈值的先验框,所述负样本为有效语音部分不大于所述阈值的先验框;
根据所述训练数据对所述初始目标检测模型进行训练,得到所述目标检测模型。
3.根据权利要求2所述的方法,其特征在于,所述获取训练数据,包括:
获取所述样本频谱图,所述样本频谱图具有多个先验框;
根据损失函数公式确定与所述多个先验框一一对应的损失函数,所述损失函数公式包括:
L(x,c,l,g)=(Lconf(x,c)/N+αLloc(x,l,g));
所述L为所述损失函数,所述Lloc为位置误差函数,所述Lconf为置信度误差函数,所述cx为每个先验框、边界框以及有效语音部分的中心坐标在时间轴上的数值,每个所述边界框为所述初始目标检测模型对每个所述先验框经过变换之后得到的框,所述w为每个先验框、边界框以及有效语音部分在所述时间轴的方向上的宽度,所述i表示所述多个先验框中的第i个先验框,所述j为所述样本频谱图中第j个有效语音部分,所述N为所述先验框的正样本数,所述α为指定参数,所述p为有效语音部分,当第i个先验框与第j个有效语音部分匹配时不匹配时所述c为先验框属于有效语音部分的置信度,所述表示第i个先验框属于有效语音部分的置信度,所述表示第i个先验框属于有效语音部分的预测置信度,所述表示第i个先验框不属于有效语音部分的预测置信度,所述Pos为正样本先验框,所述Neg为负样本先验框,所述m为(cx,w)中的任意一个值,所述l为边界框的位置预测值,所述为第i个先验框所对应边界框的位置预测值,所述g为所述有效语音部分的位置参数,所述表示第j个有效语音部分中心坐标在时间轴上的数值,所述表示第j个有效语音部分在所述时间轴的方向上的宽度,所述表示第j个有效语音部分中心坐标在时间轴上的预测值,所述表示第j个有效语音部分在所述时间轴的方向上的预测宽度,所述表示第i个先验框中心坐标在时间轴上的数值,所述表示第i个先验框在所述时间轴的方向上的宽度。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置之后,包括:
将所述有效语音部分的起始位置以及终止位置转换为时域上的位置。
5.根据权利要求1所述的方法,其特征在于,所述对音频信号进行处理,得到所述音频信号的频谱图,包括:
对所述音频信号进行短时傅里叶变换,得到所述音频信号的频谱图。
6.根据权利要求1-5任一所述的方法,其特征在于,所述目标检测模型包括单发多框检测器。
7.一种语音端点检测装置,其特征在于,所述装置包括:
处理模块,用于对音频信号进行处理,得到所述音频信号的频谱图;
输入模块,用于将所述频谱图输入目标检测模型,所述目标检测模型用于检测所述频谱图中的有效语音部分;
获取模块,用于获取所述目标检测模型输出的所述频谱图中有效语音部分的起始位置和终止位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089292.6/1.html,转载请声明来源钻瓜专利网。