[发明专利]一种基于多尺度时空注意力机制的语音情感识别方法在审
| 申请号: | 202310528013.5 | 申请日: | 2023-05-10 | 
| 公开(公告)号: | CN116631449A | 公开(公告)日: | 2023-08-22 | 
| 发明(设计)人: | 王志锋;陈增照;林梦婷;汪兵;冯子祚;龚斌;黄雯凯;赵传旭 | 申请(专利权)人: | 华中师范大学 | 
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/03;G10L25/27 | 
| 代理公司: | 武汉华之喻知识产权代理有限公司 42267 | 代理人: | 曹葆青;廖盈春 | 
| 地址: | 430079 湖*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 尺度 时空 注意力 机制 语音 情感 识别 方法 | ||
1.一种基于多尺度时空注意力机制的语音情感识别模型训练方法,其特征在于,所述方法包括:
按预设时长对语音数据进行分段,再对语音片段进行特征提取,获得帧级特征和话语级特征;
分别利用基于注意力机制的多尺度卷积网络和双向长短时记忆网络从所述帧级特征中提取帧级深度空间特征和帧级深度时间特征;结合所述帧级深度空间特征和帧级深度时间特征得到帧级深度情感特征;
从话语级特征中提取话语级深度情感特征;
基于多头注意力机制融合所述帧级深度情感特征和所述话语级深度情感特征得到感情识别模型;
利用损失函数优化所述感情识别模型。
2.根据权利要求1所述的方法,其特征在于,利用损失函数优化所述感情识别模型后,再通过所述感情识别模型识别出整体语音中所有语音片段的情感分类,通过多路决策对每个语音片段的情感分类进行投票,投票数最多的情感类别即决策为整体语音的情感类别。
3.根据权利要求1所述的方法,其特征在于,所述基于注意力机制的多尺度卷积网络中,包括在同一层次上并行的多尺度卷积层,所述多尺度卷积层通过设置不同感受野的多尺度卷积核来捕捉不同大小的时频特征。
4.根据权利要求1或3所述的方法,其特征在于,所述基于注意力机制的多尺度卷积网络中,利用自注意力机制从多尺度卷积层的输出中筛选与语音情感识别相关的特征:
其中,Attention(·)表示自注意力机制,Q表示查询向量,K表示被查向量,V表示内容向量,softmax(·)表示归一化操作,dk表示缩放因子,为参数K的维数,T表示转置;自注意机制使用K,V对来表示存储的内容,根据Q和K计算权重系数,并根据权重系数对V进行加权求和;在自注意力中,Q,K和V来自同一个输入。
5.根据权利要求1所述的方法,其特征在于,基于多头注意力机制融合所述帧级深度情感特征和所述话语级深度情感特征得到感情识别模型,具体为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
where headi=Attention(QWiQ,KWiK,VWiV)
其中,MultiHead(·)表示多头注意力机制,Q表示查询向量,K表示被查向量,V表示内容向量,Concat(·)表示拼接,h表示head的头数,WO表示拼接后进行线性变换的训练参数,head1,…,headh表示表示每个头的注意力机制,where headi表示第i个head的注意力矩阵参数,Attention(·)表示单个的注意力机制,WiQ,WiK,WiV分别表示Q、K、V进行第次线性变换的训练参数。
6.一种基于多尺度时空注意力机制的语音情感识别方法,其特征在于,所述方法包括:
采集待识别语音;
将所述待识别语音按预设时长进行分段,再对语音片段进行特征提取,获得帧级特征和话语级特征;
将所述帧级特征和话语级特征输入至语音情感识别模型中,输出待识别语音的情感分类;
其中,所述语音情感识别模型是根据权利要求1-5中任意一项所述方法训练而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310528013.5/1.html,转载请声明来源钻瓜专利网。





