[发明专利]一种基于互补声学表征的语音情绪识别模型以及方法在审
| 申请号: | 202210952834.7 | 申请日: | 2022-08-09 |
| 公开(公告)号: | CN115312080A | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 张小明;张帆 | 申请(专利权)人: | 南京工业大学;绍兴兰红智能科技有限公司 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/06;G10L15/16;G10L25/18;G10L25/21;G10L25/24 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211816 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 互补 声学 表征 语音 情绪 识别 模型 以及 方法 | ||
本发明涉及语音情绪识别技术领域,具体涉及一种基于互补声学表征的语音情绪识别模型以及方法,该模型采用深度学习模型:包括卷积神经网络编码器以及Transformer编码器两部分。其中,卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。本发明能更好地利用互补声学表征的特征,从而提高语音情绪识别的准确率。
技术领域
本发明涉及一种基于互补声学表征的语音情绪识别模型以及方法,属于语音情绪识别领域。
背景技术
语音信号是人类之间最快,最自然的通信方式,这促使研究人员将语音视为一种快速有效的人机交互方式。语音情绪识别从说话者的语音中提取说话人的情绪状态,它是交互式智能系统的重要组成部分。语音情感识别一般是由三部分组成,包括语音信号采集、情感特征提取以及情感识别。
语音信号中包含了多方面的信息,对这些信息进行进一步加工处理可以用于许多研究,包括自动语音识别、说话人识别等。现有的语音情绪识别研究能够做到从同一段语音中提取多种声学特征,但却没有考虑到不同的声学特征侧重点不尽相同,单一的使用某种声学特征作为研究对象无法做到充分利用音频信号中的信息,这样也会使得情绪识别准确率提升不明显。
深度学习的快速发展极大地推动了语音情绪识别研究的进展,然而现有的语音情绪识别研究主要将侧重点放在了模型的提升上,却没有考虑到输入的声学特征与模型之间也存在一定的适配性,合理地利用这一适配性可以进一步提升语音情绪识别的准确率。
发明内容
本发明的目的是针对声学特征的不恰当选用以及声学特征与模型的不恰当组合的问题,提出了一种基于互补声学表征的语音情绪识别模型以及方法,从音频数据中提取两种具有互补性的声学特征,并分别作为相应编码器的输入,从而提高语音情绪识别的准确率。
本发明为解决上述问题采用以下技术方案:
一种基于互补声学表征的语音情绪识别模型,该模型采用深度学习模型,包括卷积神经网络编码器以及Transformer编码器,其中:
卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;
Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。
一种基于互补声学表征的语音情绪识别方法,基于互补声学表征的语音情绪识别模型,包含步骤如下:
步骤1:建立深度学习模型:包含卷积神经网络编码器以及Transformer编码器,其中卷积神经网络编码器包含7层卷积层,Transformer编码器包含8个Transformer模块,设定随机种子,初始化模型的超参数;
步骤2:获取音频样本步骤:使用交互式情绪二元运动捕捉数据库IEMOCAP,将数据库中的各条语音进行预处理获得若干条语音片段,将前述语音片段作为独立的音频数据样本,语音片段的情绪标签为预处理前语音的情绪标签;
步骤3:提取特征步骤:从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征;
步骤4:训练步骤:将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入,执行如下训练操作;
步骤4.1:第一层卷积层至第七层卷积层利用局部感受野,从输入的对数梅尔频谱logMels中提取局部特征后,将结果展平为张量c;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学;绍兴兰红智能科技有限公司,未经南京工业大学;绍兴兰红智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210952834.7/2.html,转载请声明来源钻瓜专利网。





