[发明专利]人声激活检测方法、装置、计算机设备和存储介质在审
申请号: | 202110425564.X | 申请日: | 2021-04-20 |
公开(公告)号: | CN113113001A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 徐泓洋;王广新;杨汉丹 | 申请(专利权)人: | 深圳市友杰智新科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L21/0272 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市南山区招商*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人声 激活 检测 方法 装置 计算机 设备 存储 介质 | ||
本申请提供一种人声激活检测方法、装置、计算机设备和存储介质,其中方法包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。
技术领域
本申请涉及语音识别技术领域,特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。
背景技术
传统的VAD(voice activity detection,声音激活检测)算法作为一个前端监测模块,常用于实时唤醒系统以及实时语音识别等系统中,用于过滤实时录音数据,减少后续模型不必要的计算。但是,目前的VAD算法只能检测环境中有没有声音,无法区分这个声音是不是后续模型需要的声音,即无法区分人声和非人声。
发明内容
本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质,旨在克服目前无法检测环境中是否有人声的缺陷。
为实现上述目的,本申请提供了一种人声激活检测方法,包括以下步骤:
实时采集语音数据;所述语音数据包括多帧音频数据;
提取所述语音数据中每一帧音频数据对应的语音特征向量;
依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。
进一步地,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤,包括:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。
进一步地,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。
进一步地,所述实时采集语音数据的步骤之前,还包括:
获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
提取每一帧训练音频对应的训练特征向量;
依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。
进一步地,所述获取训练数据的步骤,包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司,未经深圳市友杰智新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110425564.X/2.html,转载请声明来源钻瓜专利网。