[发明专利]一种基于像素和几何混合特征的人脸表情识别方法在审

申请号：	202011439263.4	申请日：	2020-12-08
公开（公告）号：	CN112464865A	公开（公告）日：	2021-03-09
发明（设计）人：	刘畅;廣田薰;王健;戴亚平	申请（专利权）人：	北京理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/42;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于像素几何混合特征表情识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，包括以下步骤：

步骤1：读取表情数据集图像，进行人脸检测后截取人脸关键区域，去除冗余区域；

步骤2：设计空间注意力模块，利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取，其中，空间注意力模型得到的特征图中每个值对应于人脸关键区域像素在空间位置的相对重要性，给予与表情表达相关的空间像素位置较大权重，而给予不相关的空间像素位置较小权重，从而提高与表情相关区域的特征表达，并且抑制无关区域的干扰；

步骤3：对人脸关键区域进行关键点检测，将人脸关键点按人脸五官区域进行分组，划分为多个局部面部区域，利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取，将每个LSTM提取的关键点特征级联后通过注意力模型，分配各个局部面部区域不同权重，能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达，最后经非线性函数激活后获得全局面部特征，即深层几何级特征；

步骤4：将像素级特征和几何级特征融合获得混合特征，利用交叉熵损失函数进行网络权值更新并使用Softmax对混合特征进行分类，得到面部表情图像的识别结果。

2.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，步骤1中，对所述的数据集预处理步骤如下：

骤1.1：读取表情数据集图像，对输入图像进行人脸检测获得人脸区域。

步骤1.2：截取人脸区域并归一化为统一尺寸获得人脸特征区域；

步骤1.3：按照步骤1.1、步骤1.2的操作处理数据集中全部用于实验(训练和验证)的图像，得到预处理之后的数据集。

3.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，步骤2中，像素级特征提取步骤如下：

卷积神经网络通过堆叠的卷积结构进行特征提取，具有捕捉深层信息的能力。VGG网络模型是由多个VGG块组成的级联模型，每个VGG块由多个卷积层和一个用于下采样的最大池化层组成。本专利所设计使用的带有空间注意力模型的卷积神经网络受到VGG网络模型的启发，设计了空间注意力模块来减少情感不相关区域中冗余信息的影响。

当输入图像为N×N×M(其中，N为特征图大小，M为通道数量)时，具体包括以下步骤：

步骤2.1：将缩放为统一尺寸的人脸图像输入到第一个VGG块，该VGG块包含1个的卷积层、1个的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第二个VGG块，该VGG块包含1个的卷积层、1个的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第三个VGG块，该VGG块包含1个的卷积层、2个的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第四个VGG块，该VGG块包含1个的卷积层、3个的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；最后输入到第五个VGG块，该VGG块包含4个的卷积层、1个池化窗口大小为K_m×K_m的最大池化层和1个池化窗口大小为K_a×K_a的平均池化层组成。此外，为了更好的发挥卷积神经网络的作用，在上述的每一个卷积层后添加BN层和Relu激活层。其中，在中，上标i表示第i个卷积层，Kⁱ为卷积层的卷积核尺寸，为卷积层的输入通道数量，为卷积层的输出通道数量。

步骤2.2：将步骤2.1的输出输入到注意力模块，注意力模块包含1个(其中，为卷积层的输入通道数量)的卷积层、1个tanh激活层和1个L_in×L_out(其中，L_in为全连接层输入节点个数，L_out为全连接层输出节点个数)的全连接层。全连接层的输出即为提取到的像素级特征。

作为优选，输入图像为44×44×3时，具体包括以下步骤：

步骤2.1：将缩放为统一尺寸的人脸图像输入到第一个VGG块，该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成；继续输入到第二个VGG块，该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成；继续输入到第三个VGG块，该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成；继续输入到第四个VGG块，该VGG块包含1个3×3×256×512的卷积层、3个3×3×512×512的卷积层和1个2×2的最大池化层组成；最后输入到第五个VGG块，该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1个1×1的平均池化层组成。此外，为了更好的发挥卷积神经网络的作用，在上述的每一个卷积层后添加BN层和Relu激活层。

步骤2.2：将步骤2.1的输出特征输入到注意力模块，注意力模块包含1个1×1×512×1的卷积层、一个tanh激活层和1个512×512的全连接层。全连接层的输出即为提取到的像素级特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011439263.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可以获取人像数据的全息广告机
下一篇：终端设备控制装置及方法、电子设备、存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于像素和几何混合特征的人脸表情识别方法在审

专利文献下载