[发明专利]人声激活检测方法、装置、计算机设备和存储介质在审

申请号：	202110425564.X	申请日：	2021-04-20
公开（公告）号：	CN113113001A	公开（公告）日：	2021-07-13
发明（设计）人：	徐泓洋;王广新;杨汉丹	申请（专利权）人：	深圳市友杰智新科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L21/0272
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;曹勇
地址：	518000 广东省深圳市南山区招商***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人声激活检测方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种人声激活检测方法、装置、计算机设备和存储介质，其中方法包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

技术领域

本申请涉及语音识别技术领域，特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。

背景技术

传统的VAD(voice activity detection，声音激活检测)算法作为一个前端监测模块，常用于实时唤醒系统以及实时语音识别等系统中，用于过滤实时录音数据，减少后续模型不必要的计算。但是，目前的VAD算法只能检测环境中有没有声音，无法区分这个声音是不是后续模型需要的声音，即无法区分人声和非人声。

发明内容

本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质，旨在克服目前无法检测环境中是否有人声的缺陷。

为实现上述目的，本申请提供了一种人声激活检测方法，包括以下步骤：

实时采集语音数据；所述语音数据包括多帧音频数据；

提取所述语音数据中每一帧音频数据对应的语音特征向量；

依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

进一步地，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤，包括：

将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；

将所述第一中间特征向量输入至所述第二卷积层进行卷积运算，得到第二中间特征向量；

将所述第二中间特征向量输入至所述第三卷积层进行卷积运算，得到第三中间特征向量；