[发明专利]一种基于分层量化的轻量级神经网络语音关键词识别方法在审
申请号: | 202110101761.6 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112786021A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 陆生礼;胡忠元;庞伟 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L25/24;G10L15/28;G10L15/26;G10L15/20;G10L19/02 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 量化 轻量级 神经网络 语音 关键词 识别 方法 | ||
1.一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于,该识别方法包括以下步骤:
步骤1.获取关键词语音音频数据集并对关键词语音音频数据进行增强;
步骤2.对所述增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征;
步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练,根据训练结果保存神经网络各层的权重参数,通过分层8bits量化将权重参数量化成8位并保存。
步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器,加载所述量化后的8位权重到神经网络加速器中,加速前向推理计算过程,根据神经网络加速器的输出得到不同关键词的概率值;
步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较,大于阈值则根据预测结果判别输入的语音关键词,小于阈值则表示输入的语音中没有关键词。
2.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述语音增强包括添加噪声信号、对关键词信号随机左移或右移,增强系统的鲁棒性。
3.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换;预加重对高频信号进行补偿;语音信号具有短时不变性,分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性;快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱,并且继续对频谱信号取模平方得到各帧的功率谱;梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组,得到梅尔频谱;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征。
4.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述基于分层8bits量化的轻量级神经网络模型结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。
5.根据权利要求4所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述轻量级神经网络模型的第一层为卷积层,对输入的声学特征作特征提取,主要的参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2;通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。
6.根据权利要求4所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述注意力机制Squeeze-and-Excitation,主要用在深度可分离卷积网络中的逐通道卷积中,首先是全局信息嵌入Squeeze操作,在空间维度上进行特征压缩,将每一个二维的特征通道通过全局平均池化变成一个实数,该实数某种程度上具有全局感受野;其次是自适应重新校正Excitation操作,为每个通道生成权重参数,通过逐通道乘法方式加权到输入特征上,完成在通道维度上对输入特征的重标定。
7.根据权利要求4所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽;对于各层网络输出的激活值,根据推理结果的准确率调整激活值的量化位宽,不同层之间的量化位宽可能不一样,第2层采用3位整数位,而第3层中采用4位整数位,以此降低量化带来的精度损失。
8.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述神经网络加速器主要包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元;所述顶层控制单元根据配置信息,配置数据流和控制计算过程;所述可配置数据流PE阵列采用可配置片上网络结构,以支持深度可分离卷积、传统卷积及全连接等网络结构;所述功能单元及量化单元,实现池化、激活、批量归一化及分层8bits量化操作,通过神经网络加速器加速前向推理计算过程,完成基于分层化轻量级神经网络的语音关键词识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110101761.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带按摩功能的健身单车
- 下一篇:一种安全且扭矩高的齿轮加速机构