[发明专利]一种基于语音信号的情感识别方法、装置和计算机设备在审
| 申请号: | 201810208852.8 | 申请日: | 2018-03-14 |
| 公开(公告)号: | CN108550375A | 公开(公告)日: | 2018-09-18 |
| 发明(设计)人: | 张振兴;朱攀;司光;范文翼;周春姐;刘通;王伊蕾 | 申请(专利权)人: | 鲁东大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/16;G10L15/02;G10L25/24;G10L25/30 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 曾涛 |
| 地址: | 264025 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 情感识别 输入特征 语音情感 语音信号 卷积神经网络 计算机设备 准确率 预处理 语音输入信号 语义 倒谱系数 静态特征 梅尔频率 特征组成 分类器 阶差 语音 分类 | ||
1.一种基于语音信号的情感识别方法,其特征在于,包括:
对语音输入信号进行预处理,得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征;
将所述输入特征输入到经过语音情感训练的卷积神经网络模型中;
使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类,识别出与所述语音信号对应的情感。
2.根据权利要求1所述的方法,其特征在于,所述语音输入信号通过截取一段语音信号的前1.5s的语音信息获得。
3.根据权利要求1所述的方法,其特征在于,所述预处理包括:
对所述语音信号进行预加重处理;
对预加重处理后的信号进行分帧处理;
对分帧处理后的信号进行加窗处理;
对加窗处理后的信号作快速傅里叶变换处理;
对快速傅里叶变换处理后的信号作梅尔Mel滤波处理;
对Mel滤波处理后的信号作离散余弦变换处理;
对离散余弦变换处理后的信号作差分MFCC处理。
4.根据权利要求1所述的方法,其特征在于,所述使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类,包括:
利用第一卷积层对所述输入特征进行特征提取得到第一特征图;
利用第一池化层对所述第一特征图进行特征采样,得到第一采样结果;
利用第二卷积层对所述第一采样结果进行特征提取得到第二特征图;
利用第二池化层对所述第二特征图进行特征采样,得到第二采样结果;
其中,在所述第一卷积层对所述输入特征进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失;
以及在所述第二卷积层对所述第一采样结果进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失;
利用全连接层,通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。
5.根据权利要求4所述的方法,其特征在于,所述激活函数为线性整流Relu函数。
6.根据权利要求4所述的方法,其特征在于,所述利用全连接层,通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型后,所述方法还包括:
利用Dropout层以概率p舍弃神经元。
7.一种基于语音信号的情感识别装置,其特征在于,所述装置包括:
预处理模块用于对语音输入信号进行预处理,得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征;
输入模块用于将所述输入特征输入到经过语音情感训练的卷积神经网络模型中;
分类模块用于使用所述经过语音情感训练的所述卷积神经网络模型作为分类器对所述输入特征进行分类,识别出与所述语音信号对应的情感。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括:
预加重处理模块,用于通过一阶数字滤波器对所述语音信号进行预加重处理;
分帧处理模块,用于对预加重处理后的信号进行分帧处理;
加窗处理模块,用于对分帧处理后的信号进行加窗处理;
快速傅里叶变换处理模块,用于对加窗处理后的信号作快速傅里叶变换处理;
Mel滤波处理模块,用于对快速傅里叶变换处理后的信号作Mel滤波处理;
离散余弦处理模块,用于对Mel滤波处理后的信号作离散余弦变换处理;
差分MFCC处理模块,用于对离散余弦变换处理后的信号作差分MFCC处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810208852.8/1.html,转载请声明来源钻瓜专利网。





