[发明专利]基于隐式对齐子空间学习的跨库语音情感识别方法及装置在审
申请号: | 202210605389.7 | 申请日: | 2022-05-31 |
公开(公告)号: | CN115035915A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 宗源;常洪丽;郑文明;路成;朱洁;唐传高;赵焱 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/03;G06F16/683 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 冯艳芬 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对齐 空间 学习 语音 情感 识别 方法 装置 | ||
1.一种基于隐式对齐子空间学习的跨库语音情感识别方法,其特征在于该方法包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,其中,训练数据库中包含有若干语音样本和对应的情感类别标签,测试数据库中包含若干语音样本;
(2)对训练数据库和测试数据库中的每个语音样本提取语音特征;
(3)建立联合分布隐式对齐子空间学习模型:
其中U是待学习得到的语料不变投影矩阵,W表示重构系数矩阵,W(i)表示第i个情感类别的重构系数矩阵,i表示情感类别序号,f1(U)表示与情感识别能力相关的简单组稀疏线性回归损失,μ表示控制两项之间平衡的权衡参数,f2(U,W,W(i))表示语料库的不变性能力函数;
(4)根据语音样本的语音特征对所述学习模型进行学习,得到语料不变投影矩阵U的最优值
(5)对于待识别语音,按照步骤(2)得到语音特征,并采用学习到的得到对应的情感类别。
2.根据权利要求1所述的基于隐式对齐子空间学习的跨库语音情感识别方法,其特征在于:所述联合分布隐式对齐子空间学习模型中的f1(U)的函数具体为:
式中,λ是权衡参数,表示训练数据库语音样本的语音特征形成的特征矩阵,表示训练数据库第k个语音样本的语音特征,d是描述语音信号的声学特征向量的维数,ns为训练数据库中语音样本的数量,是Xs对应的标签形成的标签矩阵,c表示跨语料库情感识别中涉及的情感总数,Ls的每一列是一个独热编码向量,用l=[l1,…,lc]表示,如果该列对应的语音样本属于第i个情感,则第i个表项li的值设为1,其余项均设为0;
f2(U,W,W(i))的函数具体为:
式中,表示测试数据库语音样本的语音特征形成的特征矩阵,表示测试数据库第j个语音样本的语音特征,nt为测试数据库语音样本数量,τ为权衡参数,为第j个测试样本对应的重构系数向量;表示Xs中属于第i个情感类别的语音特征组成的特征向量,表示Xs中属于第i个情感类别的语音特征数量,且表示Xt中属于第i个情感类别的语音特征组成的特征向量,表示Xt中属于第i个情感类别的语音特征数量,且
3.根据权利要求2所述的基于隐式对齐子空间学习的跨库语音情感识别方法,其特征在于:步骤(4)具体包括:
(4-1)对语料不变投影矩阵U进行初始化;
(4-2)基于语料不变投影矩阵U采用下式预测测试数据库语音样本的情感类别标签emotion_label,然后根据预测的情感类别标签emotion_label的所属的情感类别序号i确定和
为语音情感类别标签的第i项;
(4-3)求解联合分布隐式对齐子空间学习模型,过程如下:
A、根据确定的和固定W和W(i),将学习模型简化为如下形式并进行求解,得到U;
式中,和L=[Ls,0(0),0(1),…,0(c)],0(0)和0(i)是条目全为0且大小与Δ(0)和Δ(i)相同的矩阵,i=1,…,c;
B、根据得到的U,固定U,将学习模型分为以下两个独立的优化模型并进行求解,得到W和W(i):
该式中W和W(i)的第j列wj和的最优解是通过使用SLEP包解决以下两个典型LASSO问题得到的:
式中,和
C、检查W和W(i)是否收敛,若收敛,则将此时的U值作为最优结果输出,否则返回步骤(4-2)进行循环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210605389.7/1.html,转载请声明来源钻瓜专利网。