[发明专利]一种基于像素和几何混合特征的人脸表情识别方法在审
申请号: | 202011439263.4 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112464865A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 刘畅;廣田薰;王健;戴亚平 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/42;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 像素 几何 混合 特征 表情 识别 方法 | ||
1.一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:读取表情数据集图像,进行人脸检测后截取人脸关键区域,去除冗余区域;
步骤2:设计空间注意力模块,利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取,其中,空间注意力模型得到的特征图中每个值对应于人脸关键区域像素在空间位置的相对重要性,给予与表情表达相关的空间像素位置较大权重,而给予不相关的空间像素位置较小权重,从而提高与表情相关区域的特征表达,并且抑制无关区域的干扰;
步骤3:对人脸关键区域进行关键点检测,将人脸关键点按人脸五官区域进行分组,划分为多个局部面部区域,利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取,将每个LSTM提取的关键点特征级联后通过注意力模型,分配各个局部面部区域不同权重,能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达,最后经非线性函数激活后获得全局面部特征,即深层几何级特征;
步骤4:将像素级特征和几何级特征融合获得混合特征,利用交叉熵损失函数进行网络权值更新并使用Softmax对混合特征进行分类,得到面部表情图像的识别结果。
2.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤1中,对所述的数据集预处理步骤如下:
骤1.1:读取表情数据集图像,对输入图像进行人脸检测获得人脸区域。
步骤1.2:截取人脸区域并归一化为统一尺寸获得人脸特征区域;
步骤1.3:按照步骤1.1、步骤1.2的操作处理数据集中全部用于实验(训练和验证)的图像,得到预处理之后的数据集。
3.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤2中,像素级特征提取步骤如下:
卷积神经网络通过堆叠的卷积结构进行特征提取,具有捕捉深层信息的能力。VGG网络模型是由多个VGG块组成的级联模型,每个VGG块由多个卷积层和一个用于下采样的最大池化层组成。本专利所设计使用的带有空间注意力模型的卷积神经网络受到VGG网络模型的启发,设计了空间注意力模块来减少情感不相关区域中冗余信息的影响。
当输入图像为N×N×M(其中,N为特征图大小,M为通道数量)时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个的卷积层、1个的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个的卷积层、1个的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个的卷积层、2个的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个的卷积层、3个的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个的卷积层、1个池化窗口大小为Km×Km的最大池化层和1个池化窗口大小为Ka×Ka的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。其中,在中,上标i表示第i个卷积层,Ki为卷积层的卷积核尺寸,为卷积层的输入通道数量,为卷积层的输出通道数量。
步骤2.2:将步骤2.1的输出输入到注意力模块,注意力模块包含1个(其中,为卷积层的输入通道数量)的卷积层、1个tanh激活层和1个Lin×Lout(其中,Lin为全连接层输入节点个数,Lout为全连接层输出节点个数)的全连接层。全连接层的输出即为提取到的像素级特征。
作为优选,输入图像为44×44×3时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个3×3×256×512的卷积层、3个3×3×512×512的卷积层和1个2×2的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1个1×1的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。
步骤2.2:将步骤2.1的输出特征输入到注意力模块,注意力模块包含1个1×1×512×1的卷积层、一个tanh激活层和1个512×512的全连接层。全连接层的输出即为提取到的像素级特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011439263.4/1.html,转载请声明来源钻瓜专利网。