[发明专利]一种基于特征-时间注意力机制的多模态情感识别方法有效
| 申请号: | 202110135196.5 | 申请日: | 2021-02-01 |
| 公开(公告)号: | CN112784798B | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 李克;梁瑞宇;赵力;郭如雪 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/80;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 时间 注意力 机制 多模态 情感 识别 方法 | ||
本发明公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明可以实现提升对于对音视频中人脸情感识别的准确率。
技术领域
本发明涉及模式识别的技术领域,尤其涉及一种基于特征-时间注意力机制的多模态情感识别方法。
背景技术
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。1971年,心理学家Ekman和Friesen通过跨文化研究将人的情感分为6 种基本的情感类别,依次为高兴(Happy)、悲伤(Sad)、吃惊(Surprise)、愤怒(Angry)、恐惧(Fear)和厌恶(Disgust),这6类情感类别具有通用性,并且可以在此基础上合成更多细粒度的次级情感类别。1997年,Picard教授首先提出了“情感计算”的概念,情感计算涉及心理学、认知学、模式识别、语音信号处理、生理学、社会学、计算机视觉和人工智能等方面,它利用计算机获取人类的脸部表情、语音等信息来识别人类表现出的情感状态,从而使机器能够更好地理解人类的情感和行为,以此带来更流畅和高效的交互体验。
“多模态”的概念最早由Duc等人提出,旨在利用表情和语音模态信息来识别人的身份和行为。多模态融合的方法一般有特征融合和决策融合。特征融合能够最大程度得保留各个模态的信息,但也存在着多个模态信息同步问题和因特征维度太大而出现的过拟合问题。决策融合是在各个模态模型得出情感识别结果后,对最后的结果以某种规则进行最后判决,灵活性高,实时性强,但由于最后只能获得各个模态上的判定结果,信息量较少,相对精度较低。
随着近年来深度学习技术的不断发展,越来越多的研究者将其应用于多模态情感识别,Chen等人在2016年EmotiW情感识别挑战赛中,在语音模态上使用声学统计特征等多种语音特征,在人脸表情模态上使用CNN特征等多种人脸表情特征,针对每种特征训练支持向量机、随机森林和逻辑回归分类器,并采用决策融合的方法来实现最后的情感识别,取得了远高于基线的成绩。Noroozi 等人提出了一种新型的基于语音和视频的决策融合方法的多模态情感识别系统,从语音中提取基于MFCC的特征,并从视频中计算面部标记的几何关系,在 eNTERFACE’05数据库上取得了较好的识别效果。Chao等人在2015年EmotiW 情感识别挑战赛中融合了使用长短时记忆神经网络聚合的语音和人脸表情特征,并对得到的特征采用SVM分类器来实现最后的分类,实现特征融合方法的情感识别方法,在测试集上取得了很高的识别率。
由于用于训练神经网络的多模态数据较少,且多模态融合特征维度较高,深度网络极易出现过拟合且十分依赖人的先验知识,为此需要引入一种使网络自动关注局部有效信息地机制,即注意力机制。注意力机制在自然语言处理领域被提出并广泛应用,近年来也被迁移到模式识别任务中使用,表现出良好的提升效果。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于特征- 时间注意力机制的多模态情感识别方法,该发明能够提升对于音视频中人物情感识别的准确率。
技术方案:为了实现上述发明目的,本发明提供了一种基于特征-时间注意力机制的多模态情感识别方法,包括以下步骤,
步骤1:构建情感识别网络模型,获取含有情感信息的音视频样本,对样本中的视频模态数据提取人脸灰度图像并使用深度残差网络编码为固定维度的特征向量得到视频初级特征矩阵;
步骤2:对样本中的音频模态数据提取梅尔频率倒谱系数,得到音频初级特征矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110135196.5/2.html,转载请声明来源钻瓜专利网。





