[发明专利]一种基于主辅网络的语音情感特征融合方法及系统有效
申请号: | 201911368375.2 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111145787B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 张雪英;胡德生;张静;黄丽霞;牛溥华;李凤莲 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/03;G10L25/24 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 冯静 |
地址: | 030024 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 语音 情感 特征 融合 方法 系统 | ||
本发明提供了一种基于主辅网络的语音情感特征融合方法及系统,所述方法包括:将所述测试集中各所述语音情感数据对应的多个所述第一特征和所述第二特征分别输入带有参数的所述主网络模型的下半部分和辅助网络模型,获得各所述语音情感数据对应的主网络高层特征和辅助网络高层特征;将所述主网络高层特征、所述辅助参数和所述辅助网络高层特征进行特征融合,确定各所述语音情感数据对应的主辅网络融合特征;将各所述语音情感数据对应的主辅网络融合特征输入带有参数的主网络模型上半部分,获得融合特征。本发明将多类特征有效融合,提高语音情感融合的准确率。
技术领域
本发明涉及情感特征融合技术领域,特别是涉及一种基于主辅网络的语音情感特征融合方法及系统。
背景技术
情感状态是人与人交流,人与机器有效交流的重要因素。为了实现人与机器的自然交流,让机器同时具备人类的说话、思维和情感能力,是人工智能领域一直追求的目标。语音情感识别(Speech Emotion Recognition,SER)的研究,将推动这一目标的实现,其成果可广泛应用于人机交互、远程医疗、电子教育、刑事侦查和情绪疏导等领域,因此,开展语音情感识别研究具有重要意义和实用价值。
目前语音情感识别系统的主要结构是将不同类型的特征进行融合,提出各种混合网络结构,以进一步改善语音情感识别系统的准确率。但这些方法主要存在两个主要问题:
第一,缺乏有效机制将不同类型的语音情感特征有效融合。更具体的说,目前主流的做法是将不同类型的特征简单地拼接起来作为识别网络的输入。然而受制于不同特征的量纲和维度的不同,以及各类型特征实际物理意义的不同,使得不同类型的特征相互影响,其准确率未能达到理想效果。
第二,网络输出与实际标注的对应关系不合理。更具体的说,假设以循环神经网络LSTM为核心的识别器在时间上展开的宽度是T,则LSTM在每一时刻都对应一个输出。如果我们将每一时刻的输出都与一种情感类型相对应显然是不合理的。
发明内容
基于此,本发明的目的是提供一种基于主辅网络的语音情感特征融合方法及系统,以提高语音情感融合的准确率。
为实现上述目的,本发明提供了一种基于主辅网络的语音情感特征融合方法,所述方法包括:
步骤S1:确定训练集和测试集;
步骤S2:利用所述训练集确定带有参数的主网络模型、带有参数的辅助网络模型和辅助参数;
步骤S3:将所述测试集中各所述语音情感数据对应的多个所述第一特征输入带有参数的所述主网络模型的下半部分,获得各所述语音情感数据对应的主网络高层特征;
步骤S4:将所述测试集中各所述语音情感数据对应的所述第二特征输入带有参数的辅助网络模型,获得各所述语音情感数据对应的辅助网络高层特征;
步骤S5:将所述主网络高层特征、所述辅助参数和所述辅助网络高层特征以主辅网络方式进行特征融合,确定各所述语音情感数据对应的主辅网络融合特征;
步骤S6:将各所述语音情感数据对应的主辅网络融合特征输入带有参数的主网络模型上半部分,获得融合特征。
可选的,确定训练集和测试集,具体包括:
步骤S11:确定语音情感数据库;所述语音情感数据库包括363条语音情感数据;
步骤S12:根据所述语音情感数据库确定标准数据库;
步骤S13:对所述标准数据库中各所述语音情感数据进行特征提取,获得多个语音MFCC段特征和多个语音全局特征;
步骤S14:分别对各所述语音情感数据对应的多个所述语音MFCC段特征和所述语音全局特征进行标准化处理,分别获得第一特征和第二特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368375.2/2.html,转载请声明来源钻瓜专利网。