[发明专利]一种基于双深度网络的多模式情感信息融合与识别方法有效
| 申请号: | 202010000791.3 | 申请日: | 2020-01-02 |
| 公开(公告)号: | CN111128242B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 韩志艳;王健 | 申请(专利权)人: | 渤海大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06V40/16;G06N3/04;G06N3/08 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 121013 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 网络 模式 情感 信息 融合 识别 方法 | ||
本发明提供一种基于双深度网络的多模式情感信息融合与识别方法,涉及情感识别技术领域。本发明方法首先用深度信念网络从预处理后的语音情感信号中自动地提取出新的语音情感特征,用深度卷积神经网络从预处理后的面部表情信号中自动地提取出新的面部表情特征,然后将提取的新的语音情感特征和面部表情特征参数进行组合获得组合特征向量,再利用AdaBoost算法和类可靠度来获得最终识别结果,实现对人类基本情感进行识别。该方法充分发挥了深度学习算法和集成学习算法的优点,使整个情感信息的识别过程更加接近人类情感识别,从而提高了情感识别的准确性。
技术领域
本发明涉及情感识别技术领域,尤其涉及一种基于双深度网络的多模式情感信息融合与识别方法。
背景技术
情感识别是一个跨学科的研究领域,近年来受到越来越多的关注。虽然单一地依靠语音信号、面部表情信号和生理参数来进行情感识别的研究取得了一定的成果,但却存在着很多局限性,因为人类是通过多模式的方式表达情感信息的,它具有表达的复杂性和文化的相对性。如美国MIT媒体实验室情感计算研究小组Picard教授等人率先以图片为诱发材料,从人体肌电、脉搏、皮肤电导和呼吸信号中提取特征,并对愤怒、憎恶、悲伤、柏拉图式的爱、罗曼蒂克的爱、高兴、崇敬以及中性状态共8种情感进行分类,取得了较好的分类效果。东南大学的赵力、黄程韦等通过融合语音信号与心电信号进行了多模式情感识别,获得较高的融合识别率。但是上述方法均为与生理信号相融合,而生理信号的测量必须与身体接触,因此对于此通道的信号获取有一定的困难,所以语音和面部表情作为两种最为主要的表征情感的方式,得到了广泛的研究。如Patwadhan提出了一种利用多模态音视频连续数据自动检测情感的方法,采用特征层融合的方法建立组合特征向量,利用支持向量机分类器进行情感检测。Esam等使用不同的融合方案利用每种模式的属性,提出了一种基于信息增益原理的分层决策方法,并利用遗传算法对其参数进行了优化。中国人民大学的陈师哲等在多文化场景下进行了多模态情感识别,验证了文化因素对于情感识别的重要影响。从一定意义上说,不同信道信息的融合是多模式情感识别研究的瓶颈问题,它直接关系到情感识别的准确性。因此,基于语音与面部表情信号的多模式情感识别研究是一个具有重要理论意义和很高实用价值的科学问题。
目前,融合多模式情感信息的方法主要有2种:决策层的融合和特征层的融合。决策层的融合技术是先把各个模式的信息提取出来,输入相应的分类器得到单模式识别结果,然后用规则的方法将单模式的结果综合起来,得到最终的识别结果;特征层的融合方法则是将各个模式的信息提取出来,将这些信息组成一个统一的特征向量,然后再输入到分类器中,得到最终的识别结果。这两种方法各有优缺点,决策层的融合技术考虑了不同模式对于情感识别重要性的不同,因此他们通过主观感知实验给不同的模式赋予不同的权重,但往往对同一模式仅赋一个权重,由于各模式对不同类别数据的分类能力是不同的,因此这种通过主观感知实验得到的权重能否应用到其他的情况下是值得怀疑的。特征层的融合技术更接近人类识别情感的过程,能更好地利用统计机器学习的技术,但是这种方法没有考虑到识别不同情感时,不同模式重要性的不同,因此这种方法不能最大程度地发挥多模式融合的优势。可以看出,目前对于情感信息融合技术的研究尚处于起步阶段,相应的基础理论和方法框架仍很欠缺。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于双深度网络的多模式情感信息融合与识别方法,通过语音特征和面部表情特征相融合,对情感信息进行识别。
为解决上述技术问题,本发明所采取的技术方案是:一种基于双深度网络的多模式情感信息融合与识别方法,包括以下步骤:
步骤1、情感信号获取;
首先诱发情感,再同步获取相应情感状态下的语音信号和面部表情信号,并将二者绑定存储,获得多个情感样本;
所述获取相应情感状态下的语音信号和面部表情信号的具体方法为:利用麦克风接收语音数据后,再通过采样量化获得相应的语音信号;而面部表情信号则通过摄像机拍摄获得;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010000791.3/2.html,转载请声明来源钻瓜专利网。





