[发明专利]一种语音情感识别系统及语音情感识别方法有效
| 申请号: | 201910803429.7 | 申请日: | 2019-08-28 |
| 公开(公告)号: | CN110534133B | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 殷绪成;曹秒;杨春 | 申请(专利权)人: | 珠海亿智电子科技有限公司 |
| 主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/63;G06N3/04;G06N3/063 |
| 代理公司: | 广州科粤专利商标代理有限公司 44001 | 代理人: | 邓潮彬;黄培智 |
| 地址: | 519080 广东省珠海市高*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 情感 识别 系统 方法 | ||
1.一种语音情感识别系统,其特征在于,包括:
依次连接的音频预处理模块、CNN模块、金字塔FSMN模块、时间步注意力模块和输出模块,所述CNN模块具有卷积层;
所述音频预处理模块把接收到的原始音频数据转换为语谱特征图;
所述CNN模块对语谱特征图进行初步处理,构建包含浅层信息的特征图;
所述金字塔FSMN模块对包含浅层信息的特征图进行进一步处理,以获取更深层次的语义信息和上下文信息;
所述时间步注意力模块用于关注时间步中特定的区域,并计算不同时间步长对最终情感识别的影响权重;
所述输出模块具有若干种情感类别,该输出模块用于输出与原始音频数据最相匹配的情感类别;其中,
当所述卷积层采用具有k大小的核和s大小的步长进行卷积操作时,所述卷积层的输出通过以下公式进行计算:
Wout=(Win-k)/s+1,
Hout=(Hin-k)/s+1,
其中,Wout是输出语谱特征图的宽,Win是输入语谱特征图的宽,k是卷积核大小,s是卷积核移动的步长;Hout是输出特征图的高,Hin是输入特征图的高,k是卷积核大小,s是卷积核移动的步长;
所述金字塔FSMN模块具有金字塔记忆块结构,采用所述金字塔记忆块结构,将长度为前向时间步长N1和后向时间步长N2的时间步长ht,编码为一个固定大小的长度,然后将N1与N2的和计算为当前输出,该当前输出具体如以下公式所示:
其中,是t时刻记忆模块的输出,f是任意激活函数,ai是第i个前向时间步的权重,ht-i是第i个前向时间步,bj是第j个后向时间步的权重,ht-j是第j个前向时间步;
所述金字塔记忆块结构采用跳跃连接,该跳跃连接的输入与输出的关系如以下公式所示:
其中,是第l层t时刻记忆块的输出,是任意激活函数,是第1-1层t时刻的记忆块输出,是第l层t时刻记忆块的输入,是第l层前向时间步长,是l层第i个前向时间步的权重,是l层第i个前向时间步,s1是前向时间步间隔,是l层第i个后向时间步的权重,是l层第j个后向时间步,s2是后向时间步间隔;是第l+1层t时刻隐藏层输出,Wl是第l层记忆块的权重参数,bl+1是第l层记忆块的偏置。
2.根据权利要求1所述的语音情感识别系统,其特征在于,所述时间步注意力模块具体如以下公式所示:
at=Average(ht),
y=Xs,
其中,at是第t个时间步的均值,ht是第t个时间步的特征向量,Average是求均值函数;s是注意力机制的输出,是softmax激活函数,W1是时间步注意力模块中第一层的权重参数,W2是时间步注意力模块中第二层的权重参数,b1是时间步注意力模块中第一层的偏置参数,b2是时间步注意力模块中第二层的偏置参数,f是任意激活函数,a是由所有at构成的特征向量;y是输出模块的输出结果,X是时间步注意力模块的输入。
3.根据权利要求1至2任一项所述的语音情感识别系统,其特征在于,所述卷积层为两层。
4.根据权利要求1至2任一项所述的语音情感识别系统,其特征在于,所述浅层信息为音频响度或频率。
5.根据权利要求1至2任一项所述的语音情感识别系统,其特征在于,所述若干种情感类别为四种情感类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司,未经珠海亿智电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910803429.7/1.html,转载请声明来源钻瓜专利网。





