[发明专利]一种基于多模态数据的图像情感识别方法及系统有效

申请号：	202010284300.2	申请日：	2020-04-13
公开（公告）号：	CN111523574B	公开（公告）日：	2022-09-06
发明（设计）人：	普园媛;阿曼;徐丹;赵征鹏;钱文华;袁国武;杨文武;陈云龙	申请（专利权）人：	云南大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京高沃律师事务所 11569	代理人：	刘凤玲
地址：	650091 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态数据图像情感识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态数据的图像情感识别方法，其特征在于，所述图像情感识别方法包括：

获取训练样本数据；所述训练样本数据包括训练图像数据以及训练文本数据；

获取预设共享参数；

根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征，具体包括：

获取原始卷积神经网络；

将所述训练图像数据分为第一训练图像数据和第二训练图像数据；

利用所述第一训练图像数据对原始卷积神经网络进行训练，获得预训练的卷积神经网络；

根据所述预设共享参数，利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；其中，训练过程中，利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练；

具体地，将卷积神经网络的训练分为三个支路：上支路为图像美感支路，下支路为图像情感支路，中间支路为共享参数网络支路；

上支路：利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练，获得上支路预训练的卷积神经网络，再利用第二训练图像数据进行二次训练，在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数，获取训练过的美感卷积神经网络，将该网络最后一个卷积块的输出视为图像美感特征；

下支路：利用第一训练图像数据中的DeepEmotion数据集对原始卷积神经网络进行训练，获得下支路预训练的卷积神经网络，再利用第二训练图像数据进行二次训练，在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数，获取情感卷积神经网络，将该网络最后一个卷积块的输出视为图像情感特征；

中间支路：利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练，获得中间支路预训练的卷积神经网络，该支路不使用特定的标签来计算损失和更新参数，而是将该支路的输出和上支路、下支路融合后再计算损失，即增加共享参数，利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换，并在网络迭代的过程中，将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播，使用参数α_p，α_s控制共享参数网络及图像美感支路的输出特征，并使用β_p，β_s控制共享参数网络及图像情感支路的输出特征，计算方法如下：

其中，表示共享参数网络和上支路中间输出结合后向前传播的中间输出，f_s(x,y)表示共享参数网络向前传播的中间输出，表示共享参数网络和下支路中间输出结合后的中间输出，α_p，α_s分别表示共享参数网络中间输出和上支路中间输出的结合系数，β_p，β_s分别表示共享参数网络中间输出和下支路中间输出的结合系数，f_a(x,y)表示图像美感支路的中间输出，f_e(x,y)表示图像情感支路的中间输出；

根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征；

采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合，获得第一训练融合特征；

采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合，获得第二训练融合特征；

根据所述第一训练融合特征和所述第二训练融合特征，采用交叉熵损失函数确定训练美感损失以及训练情感分布损失；

根据所述训练文本特征，采用交叉熵损失函数确定训练文本损失；

根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失；

根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数，并分别调节卷积神经网络和循环神经网络中的参数；

判断迭代次数是否小于预设迭代次数，获得判断结果；

若所述判断结果表示所述迭代次数小于预设迭代次数，返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤；

若所述判断结果表示所述迭代次数大于或等于预设迭代次数，将所述训练过的卷积神经网络确定为训练好的卷积神经网络，将所述训练过的循环神经网络确定为训练好的循环神经网络；

获取待识别数据；所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据；

将所述待识别文本数据输入所述训练好的循环神经网络，获得待识别文本特征；