[发明专利]基于通道注意力深度可分卷积网络的小样本话者辨认方法有效
申请号: | 202110954659.0 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113823292B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李艳雄;陈昊;曹文昌;黄启晟;江钟杰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L17/02;G10L25/24;G06N3/0464;G06N3/048 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 通道 注意力 深度 卷积 网络 样本 辨认 方法 | ||
1.一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述小样本话者辨认方法包括以下步骤:
S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;
S2、初始化通道注意力深度可分卷积网络,所述通道注意力深度可分卷积网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;
所述深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元,
所述深度可分卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,
所述通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;
所述逐点卷积采用1×1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;
所述批标准化单元用于依次完成近似白化预处理和变换重构操作,其中,
所述近似白化预处理的公式如下:
所述变换重构的公式如下:
其中,E[x(i)]、分别表示第i个语音样本对应特征矢量x(i)的均值与标准差,是近似白化预处理后的结果,y(i)是重构后的特征向量,γ(i)、β(i)是可调节的重构参数;
所述第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系;
所述3个深度可分卷积模块中通道卷积所用卷积核大小均为3×3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1×1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述第一激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类;
S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;
S4、将注册语音的对数梅尔谱特征输入已训练的通道注意力深度可分卷积网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;
S5、将测试语音的对数梅尔谱特征输入已训练的通道注意力深度可分卷积网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。
2.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S1中对数梅尔谱特征提取过程如下:
S1.1、采用一阶高通滤波器对输入语音进行预加重处理,一阶高通滤波器的传递函数为H(z)=1-αz-1,其中0.9≤α≤1;
S1.2、对预加重后的输入语音进行分帧处理,得到短时语音帧;
S1.3、对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将窗函数与每帧语音相乘得到加窗后的短时语音帧;
S1.4、对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱。
3.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述通道注意力模块包括顺序连接的池化单元、全连接层和第二激励单元;
所述池化单元用于完成最大池化和平均池化两种池化操作,用于对输入特征的时间维度信息进行压缩;
第一和第二全连接层的权值是共享的,对上述最大池化和平均池化操作后的特征向量分别进行线性映射,再对这两个线性映射后的向量进行元素求和;
所述第二激励单元选取Sigmoid作为激活函数,其表达式为:
对第一和第二全连接层进行元素求和后的向量重新建模,通过Sigmoid激活函数获得每个通道归一化后的权重值,权重值取值范围为0~1,归一化后无用信息对应的权重将趋于0,重要信息对应的权重将趋于1,得到通道注意力权重向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954659.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:合成手性烯丙基羧酸酯的方法
- 下一篇:一种瓦楞纸切割装置