[发明专利]一种基于物理波和循环网络的语音情感识别方法有效
申请号: | 202110418944.0 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113284515B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 王春立;郑纯军 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 物理 循环 网络 语音 情感 识别 方法 | ||
1.一种基于物理波和循环网络的语音情感识别方法,其特征在于,所述方法包括:
获取待识别的语音段;
对所述语音段进行扩展处理,得到延拓声波场;
从声波的传输机制入手,根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型,基于所述物理波模型对所述延拓声波场进行特征提取;
利用训练好的循环网络模型对提取出的特征进行语音情感识别,得到所述语音段的语音情感;所述循环网络模型采用3层双向长短期记忆模型,每层长短期记忆模型的隐藏节点具有256个单元;在长短期记忆模型的第3层后,还包括注意力层;将注意力层的输出注入全连接层和Softmax,输出预测情感分类结果;
其中,所述物理波模型包括:
当波在空间中传播时,其携带的信息处理的内存和容量由波提供;
根据标量场分布的动力学,时间和空间的波函数ut=u(x,y,z,t)由波动方程控制,其中x,y,z表示空间点的坐标,t表示时间;
使用时间步长为Δt的中心有限差分进行时间离散,如下式所示:
其中,是拉普拉斯算子,c是波速的空间分布,ft=f(x,y,z,t),其中f是源项,ft是源项的时间分布;
令ht表示当前时刻的输出,得到
其中,b表示阻尼系数,zo(t)表示输出门;
设置ct用于表示当前时刻的单元状态,得到
上式将输入序列转化为具有时序关系的输出序列,之前的每一步操作都被编码成循环神经网络的隐藏状态,在每一步中都得到了更新,其更新形式与长短期记忆模型的形式一致:ct=zf⊙ct-1+zi⊙z,其中,zf和zi分别表示长短期记忆模型中的忘记门和输入门,于是有:z=f(t);
得到:
其中,σ为sigmoid函数,xt表示原始声学信号的输入;
基于上式求出wf,wi,w的值,wf,wi,w分别代表忘记门、输入门和输出的权重;
通过ut的依赖关系,波动方程能够训练波速c的分布,其中,c=clin+ut2·cnl;clin是波传输材料区域中具有的线性响应关系,cnl是波传输材料区域中具有的非线性响应关系。
2.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法,其特征在于,对所述语音段进行扩展处理,包括:
利用固定步长深度递推声波延拓方法对所述语音段进行扩展处理。
3.根据权利要求2所述的基于物理波和循环网络的语音情感识别方法,其特征在于,所述固定步长深度递推声波延拓方法包括:
确定延拓标准,所述延拓标准下生成的语音信号能够表达完整的情感;
识别所述语音段中固定步长下的最佳连续语音帧区间,所述最佳连续语音帧区间为所述语音段的所有区间中深度累计最大的区间;
采用固定步长平移和校正的方法将所述最佳连续语音帧区间拓展至所述语音段的全部区间,得到延拓声波场。
4.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法,其特征在于,延拓标准为:
将所述语音段视为声波,假设当前声波点的坐标为(x,y),深度方向坐标为z,圆频率为w,则在深度z处的声波场表示为W(x,y,z,w),在深度域声波延拓的方程为:其中,S是亥姆霍兹算子的单平方根算子,表示为:其中,v(x,y,z)是在空气介质下语音传播的波速。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110418944.0/1.html,转载请声明来源钻瓜专利网。