[发明专利]基于级联多任务学习深度神经网络的人脸属性识别方法有效
申请号: | 201810323645.7 | 申请日: | 2018-04-12 |
公开(公告)号: | CN108564029B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 严严;庄妮;王菡子 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 级联 任务 学习 深度 神经网络 属性 识别 方法 | ||
1.基于级联多任务学习深度神经网络的人脸属性识别方法,其特征在于包括以下步骤:
1)准备训练样本集:i=1,…,N,N为训练样本数,box_k为人脸标注框的坐标向量长度,landmark_p为人脸关键点的坐标向量长度,attr_q为人脸属性的总类别数,N、box_k、landmark_p、attr_q为自然数;表示训练样本对应的固定大小的图像;表示训练样本是否属于人脸的类别:
表示训练样本的人脸标注框的坐标;表示训练样本的人脸关键点的坐标;表示训练样本的人脸属性的类别:
所述准备训练样本集需要整合多个人脸任务标签,包括以下子步骤:
(1)分别获取人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注;
(2)将人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注整合到一起组成训练样本集
2)对于训练样本集中每幅输入图像,采用均值池化的方式将输入图像调整到三个不同的尺度,作为三个级联子网络的输入,构造一个图像金字塔作为级联的深度卷积神经网络的输入;
3)设计级联的深度卷积神经网络结构,包括以下子步骤:
(1)级联的第一个子网络为小型全卷积网络,用于提取输入的图像的粗粒度特征,小型全卷积网络输入图像的大小为56×56;对于小型全卷积网络的前几层,采用VGG-16中的第一阶段到第三阶段'conv1_1'~'conv3_3'的网络结构,小型全卷积网络最后一层共享卷积层的大小为1×256×1×1;
(2)级联的第二个子网络为中型全卷积网络,用于提取输入图像的中等粒度特征,中型全卷积网络输入图像的大小为112×112;对于中型网络的前几层,采用VGG-16中的第一阶段到第四阶段'conv1_1'~'conv4_3'的网络结构,中型网络先输出一个1024维的全连接层,接着连接上由小型全卷积网络平铺得到的一个256维的全连接层,中型网络最后一层共享全连接层的大小为1×1028;
(3)级联的第三个子网络为大型全卷积网络,用于提取输入的图像的细粒度特征,大型全卷积网络输入图像的大小为224×224;对于大型网络的前几层,采用VGG-16中的第一阶段到第五阶段'conv1_1'~'conv5_3'的网络结构,大型网络先输出一个1024维的全连接层,接着连接上中型网络最后一层大小为1×1028的共享全连接层,大型网络最后一层共享全连接层的大小为1×2052;
4)在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多任务学习,同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务;
所述在级联的深度卷积神经网络内,对于每一个级联的子网络,采用多任务学习,包括以下子步骤:
(1)对于人脸分类任务,用于对给定的图片判断是否包含人脸,对于每一个训练样本计算人脸分类任务的损失,采用交叉熵损失函数:
Licls=-(yiclslog(pi)+(1-yicls)(1-log(pi))) (1)
pi表示网络计算得到的表明训练样本是否为人脸的概率;为标签;
(2)对于边框回归任务,视为回归问题,其目标在于预测人脸候选框的坐标;对于每一个训练样本计算边框回归任务的损失,采用欧式损失函数:
其中,表示从网络中得到的回归人脸候选框的坐标向量,所述坐标向量包括左边、上边、高度和宽度;表示标注的人脸候选框的坐标向量;
(3)对于人脸关键点检测任务,是一个回归问题,对于每一个训练样本计算人脸关键点检测任务的损失,采用欧式损失函数:
其中,表示从网络中得到的所有人脸关键点的坐标向量,总共采用5个人脸关键点;表示标注的人脸关键点的坐标向量;
(4)对于人脸属性分析任务,视为二分类问题,对于每一个训练样本计算人脸属性分析任务的损失,采用带有动态损失权重机制的交叉熵损失函数:
其中,μω∈Rd表示对应于d个人脸属性的动态权重向量,具体定义参照公式(6);表示对于每一个训练样本所对应的d个人脸属性的交叉熵损失向量;
(5)三个级联子网络的损失构成一个联合损失,所述三个级联子网络为小型全卷积网络、中型网络、大型网络;
其中,N表示训练样本的数量,j表示三个子网络的索引,整个网络通过反向传播算法进行优化;
5)在级联的深度卷积神经网络内采用一种动态损失权重机制,用于计算人脸属性的损失权重;
所述在级联的深度卷积神经网络内采用一种动态损失权重机制,为了学习动态权重,对每一个子网络的最后的共享特征x增加一层网络层和一层softmax层,所述网络层,在小型全卷积网络里为卷积层,在中型网络以及大型网络里为全连接层;
定义ωw∈RD×d和εω∈Rd分别为卷积层或者全连接层中的权重矩阵和偏差向量,softmax层的输出为:
其中,
其中,μω=[μ1,μ2,…,μd]T表示d维的动态权重向量,且μ1+μ2+…+μd=1.0;α=[α1,α2,…,αd]T表示一个d维的向量,softmax函数将d个动态权重转换成正实数值,且其和为1.0;
6)将训练样本集中的所有图像放进基于级联多任务学习的深度卷积神经网络内利用反向传播算法进行端到端的训练,得到训练好的模型;
7)利用模型进行人脸属性识别,其中级联网络里的最后一个级联子网络得到的人脸属性分析结果为最终的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810323645.7/1.html,转载请声明来源钻瓜专利网。