[发明专利]一种基于互补声学表征的语音情绪识别模型以及方法在审
| 申请号: | 202210952834.7 | 申请日: | 2022-08-09 |
| 公开(公告)号: | CN115312080A | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 张小明;张帆 | 申请(专利权)人: | 南京工业大学;绍兴兰红智能科技有限公司 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/06;G10L15/16;G10L25/18;G10L25/21;G10L25/24 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211816 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 互补 声学 表征 语音 情绪 识别 模型 以及 方法 | ||
1.一种基于互补声学表征的语音情绪识别模型,其特征在于,该模型采用深度学习模型,包括卷积神经网络编码器以及Transformer编码器,其中:
卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;
Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。
2.一种基于互补声学表征的语音情绪识别方法,基于权利要求1所述的基于互补声学表征的语音情绪识别模型,其特征在于,步骤如下:
步骤1:建立深度学习模型:包含卷积神经网络编码器以及Transformer编码器,其中卷积神经网络编码器包含7层卷积层,Transformer编码器包含8个Transformer模块,设定随机种子,初始化模型的超参数;
步骤2:获取音频样本步骤:使用交互式情绪二元运动捕捉数据库IEMOCAP,将数据库中的各条语音进行预处理获得若干条语音片段,将前述语音片段作为独立的音频数据样本,语音片段的情绪标签为预处理前语音的情绪标签;
步骤3:提取特征步骤:从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征;
步骤4:训练步骤:将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入,执行如下训练操作;
步骤4.1:第一层卷积层至第七层卷积层利用局部感受野,从输入的对数梅尔频谱logMels中提取局部特征后,将结果展平为张量c;
步骤4.2:第一个Transformer模块至第8个Transformer模块利用多头注意力机制,从输入的梅尔频率倒谱系数MFCCs中提取全局特征后,将结果平均化为张量e;
步骤4.3:将张量c以及张量e拼接起来送入全连接层,获得该音频数据样本关于各情绪标签的概率,将最大概率对应的情绪标签作为该音频数据样本的训练结果输出;
步骤4.4:按照步骤4.1至步骤4.3对各音频数据样本进行训练,利用优化器更新深度学习模型中的参数,直至步骤4.3中全连接层输出的情绪标签准确率趋于稳定,完成训练;
步骤5:识别步骤:通过步骤2对待识别的语音进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本;按照步骤3从上述的音频数据样本中提取2种特征;将提取的2种特征送入深度学习模型中分别作为2个编码器的输入进行识别得到各音频数据样本关于各情绪标签的概率,将来自待识别语音的音频数据样本的识别结果取平均后作为待识别语音最终的识别结果。
3.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的步骤2中,预处理步骤具体为:对于时长较短的语音进行零填充增加时长,将各条语音按照预设的长度和步长进行切分,相邻片段之间形成部分重叠。
4.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,将原始时长不足2s的语音进行零填充使其时长增加到2s,片段长度为2s,切分步长为1s,相邻片段之间存在1s的重叠,将切分后长度小于片段长度的部分丢弃。
5.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,步骤3中,具体步骤包括以下:
1)使用汉宁窗hanning对预处理好的音频数据样本做短时傅里叶变换STFT,得到功率频谱;
2)将功率频谱标度转化为梅尔频率标度,映射关系如以下公式所示:
其中fmel是以梅尔(Mel)为单位的梅尔频谱,f是以赫兹(Hz)为单位的功率频谱;
3)对梅尔频谱取对数得到对数梅尔频谱logMels;
4)将对数梅尔频谱logMels做离散余弦变换DCT,得到梅尔频率倒谱系数MFCCs。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学;绍兴兰红智能科技有限公司,未经南京工业大学;绍兴兰红智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210952834.7/1.html,转载请声明来源钻瓜专利网。





