[发明专利]基于隐式对齐子空间学习的跨库语音情感识别方法及装置在审
申请号: | 202210605389.7 | 申请日: | 2022-05-31 |
公开(公告)号: | CN115035915A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 宗源;常洪丽;郑文明;路成;朱洁;唐传高;赵焱 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/03;G06F16/683 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 冯艳芬 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对齐 空间 学习 语音 情感 识别 方法 装置 | ||
本发明公开了一种基于隐式对齐子空间学习的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)对训练数据库和测试数据库中的每个语音样本提取语音特征;(3)建立联合分布隐式对齐子空间学习模型(4)根据语音样本的语音特征对所述学习模型进行学习,得到语料不变投影矩阵U的最优值(5)对于待识别语音,按照步骤(2)得到语音特征,并采用学习到的得到对应的情感类别。本发明识别准确率更高。
技术领域
本发明涉及语音情感识别技术,尤其涉及一种基于隐式对齐子空间学习的跨库语音情感识别方法及装置。
背景技术
语音情感识别(SER)的研究旨在使计算机从语音信号中自动理解情感状态,从而提供人机更自然的交互。因此,SER研究引起了情感计算和语音信号处理领域研究者的广泛关注。在过去的几十年里,人们提出了许多性能良好的SER方法,并在广泛使用的言语情感语料库上取得了很好的性能。然而,需要注意的是,这些SER方法没有考虑真实的场景,即训练和测试的语音样本可能由不同的设备记录,在不同的环境下,或属于不同的语言。在这种情况下,训练和测试的语音样本可能会有不一致的特征分布,这大大降低了原本表现良好的SER方法的性能。因此,研究更具挑战性但更有趣的SER任务,即跨语料SER,是有意义的。
传统的语音情感识别往往在单个语音情感数据库上进行训练与测试,而在实际生活中,训练数据库与测试数据库,往往具有较大差异,例如语音情感样本在类别上不平衡、样本来自不同人种等等,因而识别结果不精确。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种识别准确率更高的基于隐式对齐子空间学习的跨库语音情感识别方法及装置。
技术方案:本发明所述的基于隐式对齐子空间学习的跨库语音情感识别方法包括:
(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,其中,训练数据库中包含有若干语音样本和对应的情感类别标签,测试数据库中包含若干语音样本;
(2)对训练数据库和测试数据库中的每个语音样本提取语音特征;
(3)建立联合分布隐式对齐子空间学习模型:
其中U是待学习得到的语料不变投影矩阵,W表示重构系数矩阵,W(i)表示第i个情感类别的重构系数矩阵,i表示情感类别序号,f1(U)表示与情感识别能力相关的简单组稀疏线性回归损失,μ表示控制两项之间平衡的权衡参数,f2(U,W,W(i))表示语料库的不变性能力函数;
(4)根据语音样本的语音特征对所述学习模型进行学习,得到语料不变投影矩阵U的最优值
(5)对于待识别语音,按照步骤(2)得到语音特征,并采用学习到的,得到对应的情感类别。
进一步的,所述联合分布隐式对齐子空间学习模型中的f1(U)的函数具体为:
式中,λ是权衡参数,表示训练数据库语音样本的语音特征形成的特征矩阵,表示训练数据库第k个语音样本的语音特征,d是描述语音信号的声学特征向量的维数,ns为训练数据库中语音样本的数量,是对应的标签形成的标签矩阵,c表示跨语料库情感识别中涉及的情感总数,Ls的每一列是一个独热编码向量,用l=[l1,…,lc]表示,如果该列对应的语音样本属于第i个情感,则第i个表项li的值设为1,其余项均设为0;
f2(U,W,W(i))的函数具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210605389.7/2.html,转载请声明来源钻瓜专利网。