[发明专利]视觉情感识别方法有效
申请号: | 201910955033.4 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110705490B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 陈恩红;刘淇;阮书岚;张琨;王怡君;吕广奕 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06K9/62;G06V10/764 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 情感 识别 方法 | ||
1.一种视觉情感识别方法,其特征在于,包括:
从图像数据中提取情境感知的图像特征表示,包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息;
利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模;
结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签,再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别,综合所有时间步的预测情感状态标签类别,得到感兴趣的人物所包含的多个情感状态;
其中,利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模包括:
利用注意力机制,采用GRU单元,计算图像全局特征信息的表示向量:
Mt=tanh(WcIc+Whht-1)
式中,Mt为一个中间量;αt为注意力矩阵,它的第i行表示为αti,i=1,2,...,m2;Wc,Wh,Wa均为需要训练的模型参数,ht-1为GRU单元t-1时间步的隐状态;Ici表示全局特征信息Ic的第i个子区域的特征信息,m2表示子区域总数;
将GRU单元t时间步的隐状态ht视为查询,Ic视为关键字,从而在整幅图像的不同区域上计算注意力矩阵αt,ct表示根据注意力矩阵计算的图像每个区域特征的加权融合结果,也即图像全局特征信息的表示向量;
对包含的感兴趣人物的情感状态标签做词嵌入用于GRU单元的输入:
emb(yk)=Ek·yk
式中,矩阵E是预训练的词向量,Ek是矩阵E中第k个单词的词向量,emb(yk)表示标签yk的词向量表示;
根据图像全局特征信息的表示向量ct与标签的词向量表示,采用GRU单元联合建模:
ht=GRU(ht-1,[emb(yt-1);ct])
式中,[emb(yt-1);ct]表示向量emb(yt-1)与ct的拼接,emb(yt-1)是指标签yt-1的词向量表示,ct是图像全局特征信息的表示向量;
利用注意力机制,结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签包括:
对感兴趣人物所在区域的局部特征信息Ib做平均池化操作:
b=avg(Ib)
根据联合建模的结果ht与平均池化操作结果b,计算初步预测的情感状态标签ot:
ot=Wof(Whht+Wbb)
式中,avg代表平均池化操作,f代表非线性激活函数,Wo,Wh,Wb代表相应的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910955033.4/1.html,转载请声明来源钻瓜专利网。