[发明专利]一种基于深度学习和表情识别的面部关键点定位方法有效
申请号: | 202110477263.1 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113221698B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 胡四泉;张超;石志国 | 申请(专利权)人: | 北京科技大学;北京科技大学顺德研究生院 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06V10/774;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 表情 识别 面部 关键 定位 方法 | ||
1.一种基于深度学习和表情识别的面部关键点定位方法,其特征在于,包括以下步骤:
选取特定的多种表情的人脸图像,根据人脸图像中脸部特征进行表情建模;
将表情模型中脸部各个器官的轮廓作为关键点数据进行标注,构建数据集;
对构建的数据集进行预处理;
搭建深度学习网络模型;
所述深度学习网络模型依次包括:第一卷积层、第一堆叠模块、第二堆叠模块、第二卷积层和全连接层;其中,所述第一堆叠模块和所述第二堆叠模块均包括基于并联卷积的瓶颈残差模块和平均池化层;
所述第一卷积层采用3x3的卷积核,用于提取输入数据的基础特征;所述第二卷积层采用4x4的卷积核,用于将数据的分辨率变为1x1;卷积的计算过程表示为公式:
yi(x)=f(xTwij+bi)
式中yi表示当前层第i个特征图,W表示卷积核,ij表示卷核的位置下标;x表示上一层的特征图;bi表示当前层第i个特征图的偏置,f(·)表示激活函数;
所述基于并联卷积的瓶颈残差模块中,采用3个3x3的卷积核进行并联操作,其中第一个卷积核输入的是整张人脸,第二个卷积核输入的是从鼻尖水平分开后的上半部人脸,第三个卷积核输入的是对应的下半部人脸;三个卷积核分别提取不同感受野的特征,之后将三个特征结果进行连接;
三个卷积核使用空洞率分别为d=[1,2,3]的空洞卷积,对应卷积核f的大小分别为3、5、7,步长s=1,通过设置填充函数使得每个卷积核输出尺寸与该卷积层输入尺寸一致;其中填充函数为:
pi=(f-1)/2*di
并且,增加非线性激活函数ReLU以增加网络的非线性特性;
将预处理后的数据集输入所述深度学习网络模型中进行训练;
将训练后的深度学习网络模型用于表情分类与识别预测。
2.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法,其特征在于,所述特定的多种表情包括:悲伤、高兴、惊讶、愤怒、恐惧和中性。
3.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法,其特征在于,所述对构建的数据集进行预处理包括:
对输入的数据从图像的四个顶点和中心处进行随机裁剪,之后进行水平翻转,对原始数据集进行扩充;
利用Opencv库的resize函数调整数据,统一图像数据的大小;
对数据集进行动态数据增强,减轻过拟合情况;
利用数据归一化方法减轻由于照明和头部姿态变化在图像测试中产生的误差。
4.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法,其特征在于,所述平均池化层为3x3的池化层,步长为2,填充为1,取池化窗口的均值作为池化特征值。
5.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法,其特征在于,在Keras+Tensorflow的平台上进行深度学习网络模型的搭建和训练,具体包括:
训练过程中将输入数据集的80%作为训练集,10%作为测试集,另外10%作为验证集;
采用hold-out的方法,在验证集上计算准确率,一旦准确率达到饱和就停止训练;
采用有监督的训练方式,在并联卷积的瓶颈残差模块中最后三个并联的卷积核提取的特征采用表达式:
进行均值加权融合,其中n为某一个特征点所检测到的数目,xn为该特征点的坐标位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学;北京科技大学顺德研究生院,未经北京科技大学;北京科技大学顺德研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110477263.1/1.html,转载请声明来源钻瓜专利网。