[发明专利]融合情感资源的多模态情感分析模型在审

专利信息
申请号: 202211262518.3 申请日: 2022-10-14
公开(公告)号: CN115577161A 公开(公告)日: 2023-01-06
发明(设计)人: 彭俊杰;李爱国;李松;李璐 申请(专利权)人: 徐州达希能源技术有限公司
主分类号: G06F16/906 分类号: G06F16/906;G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京荣哲知识产权代理事务所(普通合伙) 11998 代理人: 舒道宏
地址: 221100 江苏省徐州市高*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 情感 资源 多模态 分析 模型
【权利要求书】:

1.融合情感资源的多模态情感分析模型,其特征在,包括:

用来进行文本、视觉与听觉模态特征初步提取的单一模态特征提取层模块(1);

利用Transformer捕捉模态内部的动力,并设计情感词分类预测任务进行情感嵌入学习和提取的单一模态特征深度提取层模块(2);

利用情感嵌入来完成多模态特征交互学习,使得其他模态特征能够感知文本中情感信息的跨模态交互学习层模块(3);

将前三层学习到的情感特征表示最终输入深度神经网络完成最终预测任务的预测层模块(4)。

2.根据权利要求1所述的融合情感资源的多模态情感分析模型,其特征在于:所述单一特征深度提取层模块(2)包括以观点词典为依据获取情感资源对资源进行分类然后通过公式进行分析并将情感词分类预测的情感资源的获取与表达模块(21)与可捕获单一模态长距离中相互依赖特征的单峰语言特征学习模块(22)。

3.根据权利要求1所述的融合情感资源的多模态情感分析模型,其特征在于:所述跨模态交互学习层模块(3)包括用情感嵌入代替文本特征的多模态情感感知模块(31)、利用视觉模块进行模态间学习情感特征的视觉模态学习模块(32)与利用听觉模块进行模态间学习情感特征的听觉模态学习模块(33)。

4.融合情感资源的多模态情感分析模型,其特征在于:多模态情感分析方法包括如下步骤:

S1:单一模态特征提取:

对于给定的话语,通常包含文本、视觉与听觉三种模态话语,对于文本模态,考虑到大型预训语音模型BERT具有强大语言表征能力与特征提取能力,使用BERT进行初始特征提取,对于声学模态和视觉模态,考虑到模态内部的上下相关性和时序性,本申请使用Bi-LSTM来进行特征提取;

S2:深度特征提取:

a1:情感资源的获取与表达:除了传统的多模态情感分析普遍采用的文本、视觉和声学三个模态之外,本申请认为情感词也可以为特征学习提供更加精确的识别方向,通过对情感知识的学习,初始文本特征向量能够学习到自身所包含的情感词信息,从而使得其富含更加明确的语义信息以及更少的噪声干扰;

本申请选择以刘冰观点词典为情感资源的主要依据,为实验数据集的文本模态进行情感词标签标注,刘冰观点词典中列举了正面和负面两类英文情感词,并且包含了拼写错误、俚语变形等非正常情感词,因此本申请根据观点词典对原始文本中的情感词和非情感词的位置进行标注,并在短句末尾填充0字符以保证标签长度的一致性;

此外,本申请设计了用于情感词预测的分类辅助任务。为了确保能够有效地将情感信息融合至高维度的特征表示中,本申请选择在遵循非线性的基础上进行特征压缩,确保情感特征值在0~1之间,符合概率规律,达到降低信息损失的目的;

a2:单峰语言特征学习:Transformer改进了RNN训练慢的特点,并且可以提高计算的并行性,非常适合用于非对齐模态的特征学习,在自然语言处理领域发挥着举足轻重的作用,因此为了捕获单一模态长距离中相互依赖的特征,从上下文表示中提取到更加丰富的语义信息,本申请没有选择基于RNN的结构来捕获模态序列信息,而是选择采用基于Transformer的结构分别生成每个模态的序列特征。此外,与单头注意力机制不同,多头自注意力机制作为Transformer的关键组件能够通过引入多个query来捕获模态内部的多种相关性;

a3:跨膜态交互学习:考虑到文本并不能包含所有的情感信息,并且由于观点词典的局限性,本申请对于情感词的标注工作仅标注了情感词,并未对语气助词、语气副词等同样会对模态表达情感产生影响的词语进行标注,同时无法保证完全覆盖所有的网络新词。因此对于准确的情感分析而言,仅仅使用情感嵌入作为主导来进行模态间的特征学习是不够的。此外,视觉模态和声学模态中蕴含着文本模态所不具有的额外信息,有助于情感信息的学习和提取,考虑到以上几点点,本申请将另外两种模态间的信息也进行引入,以此来补充情感嵌入表示的不足之处;

a4:预测层:将得到的特征表示进行拼接,并送入深度神经网络完成最终的预测;

S3:实验结构与分析:

b1:数据集的统计:选择了三个公共多模态情感分析的数据集来进行实验,MOSI,MOSEI和IEMOCAP;

CMU-MOSI:该数据集由来自YouTube的2199个视频独白片段组成,每个片段均有一个情感强度标签,强度在[-3,+3]范围内,+3为稳固的积极情绪,-3为稳固的消极情绪。此外,该数据集的训练集、测试集和验证集分别包含1284个、229个和686个视频片段;

CMU-MOSEI:该数据集是对CMU-MOSI的改进,它的视频片段更多、人物主题等种类更丰富。该数据集包含22856个来自于YouTube的视频独白片段,训练集、验证集和测试集分别由16326个、1871个和4659个视频片段组成;

IEMOCAP:该数据集包含4453个对话片段,由快乐、愤怒、悲伤、中性等九种情绪类别标记,由于一些情绪标签存在不平衡性,本申请选择采用前四种情绪标签来进行实验。此外,该数据集的训练集、验证集和测试集分别由2717个、798个和938个视频片段组成;

b2:Baselines:

TFN:TFN融合了单模态、双模态和三模态的相互作用,并用笛卡尔积来进行张量融合;

LMF:LMF在TFN的基础上进行了改进,利用低秩分解因子来减少多模态张量融合时的计算内存;

MulT:MulT在Transformer编码器的基础上利用跨模态注意力模块来进行模态间的信息交互;

ICCN:ICCN将声学模态和视觉模态信息附加在文本模态上,通过探究语言信息和非语言信息的隐藏关系来进行多模态融合;

TCSP:TCSP以文本为中心,利用跨模态预测任务来学习模态的共享和私有语义,并融合语义特征来进行多模态情感预测;

BIMHA:BIMHA探讨了成对模态键的相对重要性和关系,并扩展多头注意力来进行信息增强;

HEMT:HEMT提出了一种基于全息约化表示的方法,该方法是外积模型的压缩版本,以促进跨模态的高阶融合;

PMR:PMR在跨模态transformer的基础上引入了一个信息中心来与每种模态进行信息交互,并在重复循环的过程中完成共同信息和模态内部特征的互补,并使用最终生成的特征进行情感预测;

b3:参数设置:本申请使用768维的BERT预训练词向量作为文本特征,多头注意力的头数为8,多任务学习的dropout为0.2,预测层的dropout为0.5,对MOSI数据集而言,本申请设置数据集的初始学习率为3e-5,批大小为16,文本、声学和视觉模态的隐藏单元数分别为128,16和32,对于MOSEI而言,数据集的初始学习率为1e-5,批大小为32,文本、声学和视觉模态的隐藏单元数分别为128,32和64,对于IEMOCAP数据集而言,快乐、愤怒、悲伤和中立四种情绪的初始学习率分别为3e-3,4e-4,7e-4和6e-4,批大小均为32,文本、声学和视觉模态的隐藏单元数分别为128,32和16;

本申请使用Adam优化器进行训练,并使用提前停止策略(early-stopping),本申请使用6个不同的评价指标来评估模型的性能:对于多分类任务,本申请使用二分类准确率(Acc-2)、三分类准确率(Acc-5)、五分类准确率(Acc-7)和F1值(F1-score)作为评价指标,对于回归任务,本申请使用平均绝对误差(Mean Absolute Error-MAE)和皮尔逊相关系数(Pearson correlation-Corr)作为评价指标,除了平均绝对误差之外,所有的评价指标均是数值越高越好;

S3:结果分析:

c1:模型在CMU-MOSI上的实验结果,分析实验结果可以发现,TFN和LMF的性能表现较差,这是由于两种方法没有考虑到模态间有效信息比例的差异性;MulT和BIMHA均注意到模态间交互信息的重要性,并分别结合Transformer框架和多头注意力机制来挖掘和捕获模态之间的信息,因此这两种方法较之以往工作在结果上有所提升,但并没有达到预期水平,在这些方法中,表现较为突出的是ICCN和PMR,ICCN利用文本模态与非文本模态间的隐藏关系来为跨模态融合提供有用指导,PMR则是注意到非对齐多模态数据的异步性,并引入消息中心来辅助多种模态的信息交互过程,尽管两种方法均取得了较好的性能表现,但是由于本申请的方法在考虑到不同模态间互补性和差异性的同时,还注意到了情感资源对于模态融合的重要意义,通过情感知识嵌入的参与提高了模态间的信息融合和提取的效率,因此上述方法在各项评估指标上仍旧逊色于本申请的方法;

此外,本申请的模型在分类任务和回归任务上均展现出了极好的性能。对于分类任务,本申请的方法在F1分数和二分类准确率上均达到最优结果,与最好的baseline结果相比,分别提高了0.82%和0.75%。对于回归任务,本申请的模型同样表现出了极其突出的性能,尤其是在相关性(Corr)上提高了8.3%,这是显著的改进和提升;

c2:模型在CMU-MOSEI上的实验结果,分别汇报了模型在回归任务和分类任务上的表现,可以注意到,对于回归任务,本申请的方法在平均绝对误差(MAE)和相关性(Corr)两个回归指标上均展现出了极其突出的性能,与最好的baseline结果相比,分别高出1.3%和7.9%,对于分类任务,本申请的方法也取得了最优结果,相较于最优baseline结果,其F1分数和准确率分别高出0.55%和0.6%,其五分类和七分类准确率分别高出0.51%和0.09%,此外,表现最为不理想的方法是TFN,其各项评估指标均远远低于本申请的方法,尤其是在F1分数和二分类准确率上,本申请的方法分别比TFN高出5.74%和6.28%,这是由于TFN在模态融合时忽略了不同模态的贡献差异;而与本申请的方法最为接近的是ICCN和BIMHA,这两种方法虽然展现出了较好的实验结果,但是在各项评价指标上仍旧逊色于本申请的方法,这可能是由于本申请的方法不仅考虑到了BIMHA所注重的模态交互信息差异性,同时也考虑到了ICCN所注重的文本信息,此外本申请的方法还使用多任务联合学习框架来提升模型的泛化性,并将情感知识嵌入融入到模态间的特征学习过程中,因此本申请的方法取得了更为优异的表现;

c3:模型在IEMOCAP数据集上的结果,方法在Angry、Sad等偏向于负面的情绪上展现出了较强的竞争力,尤其在Angry情绪的二分类准确率和F1分数上分别高出了0.54%和0.24%,这说明相比于其他方法,本申请的方法对于偏向负面的情绪更加敏感,更易感知到负面情绪,而在Happy情绪标签下,本申请的方法也取得了第二名的好成绩,虽然ICCN和BIMHA分别在二分类准确率和F1分数上超出了本申请的方法,但是本申请的方法与这两种方法的差距极其细微,本申请认为本申请的方法未达到最优的原因可能是本申请在进行情感词分类预测时,所使用的标签是侧重于粗粒度的情感词汇标签,而非细粒度的情绪标签,因此造成模型对于情感知识的学习不够精准,影响到了后续情绪分类的结果;

S4:消融实验:首先,在单峰情感预测任务中,使用文本模态来进行预测的性能远远高于其他两种模态,这可能是由于文本模态是使用大规模语料库学习得到的特征向量,而其他两种模态是通过手动提取得到的,因此文本模态中可能包含有更加丰富的信息,非常适合应用到的特征学习和情感预测任务中;

其次,在双峰情感预测任务中,可以得知,在使用声学和视觉模态时,模型的性能会差很多,这证明了使用文本模态的必要性,文本模态比其他模态包含更多的有用信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州达希能源技术有限公司,未经徐州达希能源技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211262518.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top