[发明专利]基于注意力机制的多特征融合视线估计方法在审
申请号: | 202110768272.6 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113642393A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 胡章芳;夏艳玲;罗元;王兰;何革 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 特征 融合 视线 估计 方法 | ||
1.基于注意力机制的多特征融合视线估计方法,其特征在于,包括以下步骤:
S1,利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位,从而获得视线估计所需的人脸和眼睛图片;
S2,利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征,以及除眼睛外其他与视线估计相关的面部特征;
S3,利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征;
S4,利用特征融合网络将双眼及瞳孔中心位置特征进行融合,并将融合后的特征与人脸特征向量进行拼接以实现多特征融合,最后完成视线估计任务。
2.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:步骤S1所述获得人脸和眼睛图片,包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片,视线估计所需人脸及双眼图片的尺寸为224×224×3,其中224×224表示人脸和双眼图片的大小,3表示RGB图像的通道数。
3.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块,所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成,所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图。
4.根据权利要求3所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述组卷积通道注意力图的计算公式为:
MGCCAM=σ(fg_avg(fgcm(fgcm(F))))
其中,F为中间特征图,MaxPool为沿空间轴的最大池化操作,AvgPool为沿空间轴的平均池化操作,为核大小为3×3×2,步长为1的组卷积,fgcm为组卷积模块,fg_avg为全局平均池化,σ为sigmoid函数,MGCCAM为组卷积通道注意力图;
经所述空间注意力模块处理后的空间注意力图的计算公式为:
其中,F'为组卷积通道注意力图MGCCAM与中间特征图F逐元素相乘得到的特征图,为矩阵逐元素乘法,分别为F'沿通道轴进行最大池化和平均池化操作后的特征图,为核大小为3×3×2,步长和填充均为1的卷积层,为核大小为1×1×1,步长为1的卷积层,MSAM为空间注意力图。
5.根据权利要求4所述基于注意力机制的多特征融合视线估计方法,其特征在于:通过所述组卷积通道注意力模块和空间注意力模块后的特征图为:
其中,F”为中间特征图F通过组卷积通道注意力模块和空间注意力模块后的输出特征图。
6.根据权利要求1-5任一项所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG-16网络,即在原始网络VGG-16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块,最后经过一个平均池化层和全连接层操作,得到一个256维的人脸特征向量。
7.根据权利要求1-5任一项所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述眼睛特征提取器为,嵌入组卷积通道和空间注意力机制的ResNeXt-50网络,ResNeXt-50由5个卷积块组成,在每个卷积块后增加组卷积通道注意力模块和空间注意力模块。
8.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:步骤S4所述特征融合网络包括将双眼特征进行融合的双眼特征融合网络和将融合后的双眼特征与瞳孔中心位置特征进行融合的眼瞳特征融合网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110768272.6/1.html,转载请声明来源钻瓜专利网。