[发明专利]一种轻量级语音关键词识别方法、设备、介质在审
申请号: | 202211503850.4 | 申请日: | 2022-11-28 |
公开(公告)号: | CN115810357A | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 汤韬;冯辉;黄奇伟;胡波 | 申请(专利权)人: | 复旦大学;复旦大学义乌研究院 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L25/03 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 轻量级 语音 关键词 识别 方法 设备 介质 | ||
本申请涉及一种轻量级语音关键词识别方法、设备、介质,所述方法包括:获取待识别语音,并转换为特征帧向量,输入关键词识别模型,获取与目标关键词匹配的分类标签的概率数组,根据概率数组确定待识别语音内是否包含目标关键词,其中,关键词识别模型包括:时间卷积模块,包括多个按照预设的空洞系数组合的卷积层,用于提取时序间相关性信息;嵌套模块;压缩模块,包括多个按照预设的步长组合的卷积层,用于对时间卷积模块和嵌套模块的输出在通道深度拼接后的数据进行压缩与特征提取;全连接分类输出模块,用于获取概率数组。在参数量及运算复杂度均较小的轻量级约束下,本方法获得了较好识别准确率,从而更适合在嵌入式系统上进行部署。
技术领域
本发明涉及语音识别技术领域,尤其是涉及一种轻量级语音关键词识别方法、设备、介质。
背景技术
随着语音处理技术的进步和边缘计算的普及,语音识别、交互的应用场景更加广泛,而智能手表等边缘智能设备在实时语音交互应用时面临隐私保护、实时通信、功耗等约束,出现了对参数量及运算量均较小的轻量级、本地化语音关键词识别机制的需要。传统语音关键词识别方法包括:隐马尔可夫模型(Hidden Marko model,HMM)和高斯混合模型(Gaussian mixture models,GMMs)等方法,此类方法需要较高的计算能力,难以高效应用到嵌入式设备等系统中。近年来,神经网络模型方法在语音关键词识别中使用不断普及,包括:基于深度神经网络(Deep Neural Network,DNN)的方法,但DNN模型的参数量普遍较大,同时难以有效提取语音的时序间相关性信息;基于卷积神经网络(Convolutional NeuralNetwork,CNN) 的方法,在更小的参数量上能够取得了较好的识别效果,但CNN方法在识别效率上仍有较大提升空间;基于残差网络(Residual Network,ResNet)的方法,使用空洞卷积来扩大网络的感受野,但基于ResNet的方法往往需要数十万及以上的参数量,网络模型较重;基于时间卷积神经网络(Temporal Convolutional Network, TCN)的方法,在时序数据的特征提取等领域取得了较好的效果。基于此,现有方法面临:若要获得较高的识别准确率,一般方法涉及的神经网络模型往往参数量较大,动辄超过100KB的参数量,而RAM/flash空间有限的嵌入式系统难以有效承载和运行;同时复杂模型结构带来较高的运算复杂度也带来了运算延时等问题。
综上,当前的关键词识别方法存在神经网络参数量大、模型复杂度高的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种轻量级语音关键词识别方法、设备、介质,通过特定的神经网络结构设计,取得了以较小的模型总参数量和较低的模型复杂度为代价实现较高准确率的识别效果,从而更适合在内存较小、算力较低的MCU等嵌入式系统进行部署。
本发明的目的可以通过以下技术方案来实现:
本发明的一个方面,提供了一种轻量级语音关键词识别方法,包括如下步骤:
获取待识别语音,将所述待识别语音转换为与预设格式匹配的特征帧向量,输入预训练好的关键词识别模型,获取与目标关键词匹配的分类标签的概率数组,根据所述概率数组确定所述待识别语音内是否包含所述目标关键词,
其中,所述关键词识别模型包括:
时间卷积模块,包括多个按照预设的空洞系数组合的卷积层,用于根据所述特征帧向量,提取时序间相关性信息,获取第一输出数据;
嵌套模块,用于根据所述特征帧向量,获取第二输出数据;
压缩模块,包括多个按照预设的步长组合的卷积层,用于对所述第一输出数据以及所述第二输出数据拼接后的数据进行压缩与特征提取,获取第三输出数据;
全连接分类输出模块,用于根据所述第三输出数据,获取所述概率数组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;复旦大学义乌研究院,未经复旦大学;复旦大学义乌研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211503850.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能护带
- 下一篇:一种有源智能超表面辅助的MIMO通信系统控制方法