[发明专利]一种基于深度学习的语音情感识别方法在审
| 申请号: | 202210072804.7 | 申请日: | 2022-01-21 |
| 公开(公告)号: | CN114387997A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 姜元春;葛鸿飞;朱波;穆利;吴铭;刘业政;袁昆;孙见山;柴一栋;钱洋 | 申请(专利权)人: | 合肥工业大学;合肥供水集团有限公司 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/45;G10L25/30;G10L25/24 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 语音 情感 识别 方法 | ||
1.一种基于深度学习的语音情感识别方法,其特征是按如下步骤进行:
步骤1:提取LLDs序列Wl和语谱图Wg;
获取语音样本[x(t),y],t=1,2,...,N,其中,x(t)是第t个采样点信号,y是语音样本标签,N是语音样本的采样点总数;
并对x(t)进行分帧处理,得到x(t)的分帧序列:[x1(t),x2(t),...,xi(t),...,xn(t)],其中,xi(t)表示第t个采样点信号x(t)的第i个语音帧,n表示语音帧的数量;
利用式(2)对分帧序列进行加窗处理,得到加窗序列[x′1(t),x′2(t),...,x′i(t),...,x′n(t)],t=1,2,...,N:
x′i(t)=ω(t)·xi(t) (1)
式(1)中,ω(t)表示汉宁窗函数;x′i(t)表示表示第i个加窗后的语音帧;
利用式(3)提取x′i(t)的d维LLDs特征并利用式(4)将从所有帧的d维LLDs特征进行拼接,得到语音样本x(t)的LLDs序列Wl:
式(3)和式(4)中,OpenSmile(·)表示使用OpenSmile工具包进行特征提取;表示向量拼接操作;
对x′i(t)进行离散傅立叶变换得到x′i(t)的频谱,将所有帧的频谱进行拼接后得到语音样本x(t)的频谱矩阵Wg;
步骤2:LLDs序列Wl的特征提取分支;
令LLDs序列Wl的特征提取分支由局部卷积模块、全局卷积模块和融合自注意力机制的SABi-LSTM模块所构成;LLDs序列Wl依次通过特征提取分支计算得到LLDs表征v1;
步骤2.1:局部卷积模块;
所述局部卷积模块由激活函数为Relu的局部卷积层和一个局部最大值池化层构成;
所述局部卷积层使用尺度为n1×s×1的卷积核进行局部卷积操作,其中,n1为卷积核个数,s是卷积核的宽;所述局部最大值池化层使用尺度为1×s1的池化窗口进行最大值池化操作,s1是池化窗口的宽度;所述局部卷积模块利用式(6)对LLDs序列Wl进行处理,得到局部卷积模块输出的特征图Wmod1:
式(6)中,pool(·)是局部最大值池化操作,conv_local(·)为局部卷积操作;
步骤2.2:全局卷积模块;
全局卷积模块由一个激活函数为Relu的全局卷积层和一个最大值池化层组成;
所述全局卷积模块使用尺度为n2×d×l的卷积核进行全局卷积操作,其中,n2为卷积核个数,d,l是卷积核的宽和高;所述最大值池化层使用尺度为1×s2的池化窗口来进行最大值池化操作,s2是池化窗口的宽度;所述全局卷积模块利用式(7)对特征图Wmod1进行处理,得到全局卷积模块输出的特征图Wmod2:
式(7)中,squeze(·)表示删除张量中维度为1的轴,pool(·)是最大值池化操作,conv(·)是全局卷积操作;
步骤2.3:SABi-LSTM模块;
所述SABi-LSTM模块由Bi-LSTM网络、注意力机制层和最大池化层构成,其中Bi-LSTM网络由双向的LSTM网络构成;
所述特征图Wmod2记为Wmod2=[w1,w2,...,wu,...,wn/4],wu表示特征图Wmod2的第u列向量,并将Wmod2输入所述Bi-LSTM网络中,从而利用式(8)得到隐状态特征向量hu:
式(8)中,表示前向输出的第u个隐状态特征向量,表示后向输出的第u个隐状态特征向量,表示拼接,和分别表示前向和后向LSTM网络;
所述归一化层利用式(9)对隐状态特征向量hu进行处理,得到归一化矩阵Whid:
式(9)中,μu表示h′u的均值,σu表示h′u的标准差,表示h′u的第a个分量,h′u表示归一化后的特征向量,g和b表示与h′t相同维度的偏差和增益参数;H为所述Bi-LSTM网络中LSTM隐藏层的神经元数量,⊙两个向量之间的元素乘法;
所述注意力机制层采用双层前馈神经网络,并利用式(10)对归一化矩阵Whid进行处理,得到注意力特征向量序列Watt:
aj,u=tanh(W2(Relu(W1(Wqh′u+Wrh′j+b))))
式(10)中,h′u是第u个归一化后的特征向量,h′j是第j个归一化后的特征向量,aj,u是h′u同h′j之间的注意力分数,Relu是双层前馈神经网络中第一层的激活函数,tanh是双层前馈神经网络中第二层激活函数,b是偏置,αj,u是使用softmax函数对aj,u进行归一化后的注意力分数;为注意力机制层得到的第t个注意力向量,Wr、Wq和Wv是注意力机制层参数,W1和W2前馈神经网络中的网络参数;
所述最大池化层利用式(11)对注意力特征向量序列Watt进行最大池化处理,并用全连接层将其映射为定长的特征向量:
hcon=pool(Watt)
式(11)中,pool(·)是最大值池化操作,W3表示全连接层需要学习的参数矩阵,v1表示SABi-LSTM模块最终输出的k维特征向量;
步骤3:语谱图Wg的特征提取分支;
所述语谱图Wg的特征提取分支采用如式(12)所示的卷积神经网络对语谱图Wg进行处理,得到语谱图Wg的特征提取分支输出的k维特征向量v2并作为声谱图表征:
Wb1=Relu(pool1(conv1(Wg)))
Wb2=Relu(pool2(conv2(Wb1)))
式(12)中,conv(·)是卷积操作,pool(·)是池化操作,W4是全连接层需要学习的模型参数;
步骤4:多维度特征融合的决策模块;
步骤4.1:对LLDs表征v1和声谱图表征v2进行特征融合,得到融合特征
步骤4.2:利用式(11)对LLDs表征v1、声谱图表征v2及其融合特征v进行情感预测,得到相应的情感预测结果pred1、pred2、pred3,其中,pred1是v1的情感预测结果,pred2是v2的情感预测结果,pred3是v3的情感预测结果:
式(11)中,dropout(·)表示全联接层后的dropout操作;W4、W5、W6是全连接层需要学习的三个模型参数;
步骤4.3:对三个预测结果进行融合,得到融合预测结果
步骤4.4:利用式(12)得到最终的语音情感预测结果p:
式(12)中,W7是全连接层需要学习的模型参数,softmax(·)表示激活函数,C表示语音样本的情感类别总数;
步骤4.5:利用式(13)构建由交叉熵损失和L2正则化损失构成的模型的最终损失l:
式(13)中,pm表示p的第m个分量,||θ*||表示模型所有参数的L2正则化损失,ym表示y的第m个分量;
步骤5:搭建多维度特征融合的语音情感识别模型;
所述多维度特征融合的语音情感识别模型由LLDs序列的特征提取分支、语谱图的特征提取分支、多维度特征融合的决策模块构成;
使用随机梯度下降法对所述语音情感识别模型进行训练,并计算最终损失l直至其收敛,从而得到训练好的语音情感识别模型,并用于对任一语音样本u(t)来进行语音情感预测,得到语音样本u(t)预测的情感类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学;合肥供水集团有限公司,未经合肥工业大学;合肥供水集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210072804.7/1.html,转载请声明来源钻瓜专利网。





