[发明专利]一种基于主辅网络的语音情感特征融合方法及系统有效

申请号：	201911368375.2	申请日：	2019-12-26
公开（公告）号：	CN111145787B	公开（公告）日：	2023-03-14
发明（设计）人：	张雪英;胡德生;张静;黄丽霞;牛溥华;李凤莲	申请（专利权）人：	太原理工大学
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/27;G10L25/03;G10L25/24
代理公司：	北京方圆嘉禾知识产权代理有限公司 11385	代理人：	冯静
地址：	030024 山西省***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网络语音情感特征融合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于主辅网络的语音情感特征融合方法及系统，所述方法包括：将所述测试集中各所述语音情感数据对应的多个所述第一特征和所述第二特征分别输入带有参数的所述主网络模型的下半部分和辅助网络模型，获得各所述语音情感数据对应的主网络高层特征和辅助网络高层特征；将所述主网络高层特征、所述辅助参数和所述辅助网络高层特征进行特征融合，确定各所述语音情感数据对应的主辅网络融合特征；将各所述语音情感数据对应的主辅网络融合特征输入带有参数的主网络模型上半部分，获得融合特征。本发明将多类特征有效融合，提高语音情感融合的准确率。

技术领域

本发明涉及情感特征融合技术领域，特别是涉及一种基于主辅网络的语音情感特征融合方法及系统。

背景技术

情感状态是人与人交流，人与机器有效交流的重要因素。为了实现人与机器的自然交流，让机器同时具备人类的说话、思维和情感能力，是人工智能领域一直追求的目标。语音情感识别(Speech Emotion Recognition,SER)的研究，将推动这一目标的实现，其成果可广泛应用于人机交互、远程医疗、电子教育、刑事侦查和情绪疏导等领域，因此，开展语音情感识别研究具有重要意义和实用价值。

目前语音情感识别系统的主要结构是将不同类型的特征进行融合，提出各种混合网络结构，以进一步改善语音情感识别系统的准确率。但这些方法主要存在两个主要问题：

第一，缺乏有效机制将不同类型的语音情感特征有效融合。更具体的说，目前主流的做法是将不同类型的特征简单地拼接起来作为识别网络的输入。然而受制于不同特征的量纲和维度的不同，以及各类型特征实际物理意义的不同，使得不同类型的特征相互影响，其准确率未能达到理想效果。

第二，网络输出与实际标注的对应关系不合理。更具体的说，假设以循环神经网络LSTM为核心的识别器在时间上展开的宽度是T，则LSTM在每一时刻都对应一个输出。如果我们将每一时刻的输出都与一种情感类型相对应显然是不合理的。

发明内容

基于此，本发明的目的是提供一种基于主辅网络的语音情感特征融合方法及系统，以提高语音情感融合的准确率。

为实现上述目的，本发明提供了一种基于主辅网络的语音情感特征融合方法，所述方法包括：

步骤S1：确定训练集和测试集；

步骤S2：利用所述训练集确定带有参数的主网络模型、带有参数的辅助网络模型和辅助参数；

步骤S3：将所述测试集中各所述语音情感数据对应的多个所述第一特征输入带有参数的所述主网络模型的下半部分，获得各所述语音情感数据对应的主网络高层特征；

步骤S4：将所述测试集中各所述语音情感数据对应的所述第二特征输入带有参数的辅助网络模型，获得各所述语音情感数据对应的辅助网络高层特征；

步骤S5：将所述主网络高层特征、所述辅助参数和所述辅助网络高层特征以主辅网络方式进行特征融合，确定各所述语音情感数据对应的主辅网络融合特征；

步骤S6：将各所述语音情感数据对应的主辅网络融合特征输入带有参数的主网络模型上半部分，获得融合特征。