[发明专利]一种基于区域关系建模和信息融合建模的表情识别方法有效
| 申请号: | 201911310196.3 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111160163B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 于慧敏;张净 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06N3/04 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 区域 关系 建模 信息 融合 表情 识别 方法 | ||
1.一种基于区域关系建模和信息融合建模的表情识别方法,其特征在于,该方法包括如下步骤:
步骤1:预训练网络并生成表情掩模;基于包括L种不同类别的表情图像数据{人脸表情图像Ii,表情类别标签yi},其中i=1,…,N为样本编号,使用卷积神经网络Exp-Net对目标图像进行特征提取,并得到每张图像的表情特征其中H,W,C分别为Gori的长、宽和通道数;然后,将Gori输入一个单层或多层卷积神经网络Mask-Net学习表情显著区域,并生成单通道掩模将掩模M应用于特征Gori上,形成新的表情特征
步骤2:将步骤1得到的Gmask输入Exp-Net的后续层完成表情识别分类任务并进行网络预训练,优化Exp-Net的权值;
步骤3:构建Refine-Net模型并得到隐特征h;所述Refine-Net模型由单层循环神经网络RNN组成,将步骤1得到的掩模M输入到Refine-Net模型中生成隐特征h;
步骤4:精调掩模M的区域;将Mask-Net与步骤3构建的Refine-Net级联,使用Triplet-Loss对h进行度量学习,优化Mask-Net的神经元权重,以达到精调掩模M的目的;
步骤5:信息融合建模与分类;以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值,按照步骤1的方法,得到精调后的表情特征G′mask,将G′mask输入一个由自编码器网络组成的信息融合网络Fuse-Net;G′mask通过Fuse-Net中的编码器后生成一维向量特征其中S为e的长度;所述Fuse-Net的编码器使用Triplet-Loss对e进行度量学习,使其对表情识别任务具有更好的区分度;再使用一个全连接网络对e进行表情分类,得到最终预测的每张表情图像的类别q′;Fuse-Net中的解码器用于生成表情模式图R,其中使用Triplet-Loss对R进行度量学习,同时对每一个样本的R与其对应的输入图像I使用MSE-Loss,通过平衡两种相似性损失的比例训练网络,最终得到表情模式图R;
步骤6:将步骤5更新权值后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接,在Fuse-Net的编码器输出连接一个训练好的全连接网络构建得到基于区域关系建模和信息融合建模的表情识别模型,将采集的人脸表情图像输入至表情识别模型中,即可得到采集的人脸表情图像的类别和对应的表情模式图。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中所使用的Exp-Net的结构选自VGG-16、VGG-19或Res-Net;所使用的Mask-Net的结构选自单层卷积神经网络或双层卷积神经网络。
3.根据权利要求1所述的方法,其特征在于,步骤3将步骤1得到的掩模M输入到Refine-Net模型中生成隐特征h方法具体如下:
将掩模按其每个元素的下标顺序进行向量化展开,形成一个一维向量其中T=H×W;将Mvec中的每个元素依次输入由单层RNN组成的Refine-Net,最终得到RNN网络的隐特征h。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911310196.3/1.html,转载请声明来源钻瓜专利网。





