[发明专利]一种注视点估计方法、装置、计算机设备和介质在审
申请号: | 202210764266.8 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115131731A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 邹刚;闵晓珊;王悦;谢剑斌;谢昌颐;邹亮羽 | 申请(专利权)人: | 湖南中科助英智能科技研究院有限公司;中南大学湘雅医院 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06F3/01;G06V10/40;G06V10/774;G06V10/80 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 李杨 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 注视 点估计 方法 装置 计算机 设备 介质 | ||
1.一种注视点估计方法,其特征在于,所述方法包括:
获取人员的凝视图像,对所述凝视图像进行预处理得到训练图像,将所述训练图像输入预先设计的编码-解码网络中;所述编码-解码网络包括编码模块和解码模块;所述训练图像包括人员的注视方向标签;
通过所述编码模块对所述训练图像进行处理,得到所述训练图像的潜在空间代码;所述潜在空间代码包括外观特征代码、凝视特征代码和头部姿势代码;
对所述凝视特征代码和所述头部姿势代码进行显式旋转,根据显式旋转后的潜在空间代码通过所述解码模块得到所述训练图像的旋转解码图像,根据所述训练图像和所述旋转解码图像学习具有旋转意识的潜在凝视特征;所述旋转解码图像中人员的注视方向与所述训练图像不同;
根据多个训练图像、其对应的旋转解码图像,以及对应的潜在凝视特征,通过元学习算法学习得到自适应凝视估计网络及其初始网络权重;
获取待检测人员的校准图像信息,通过所述校准图像信息对所述初始网络权重进行调整,得到特定于待检测人员的特定凝视估计网络;所述校准图像信息包括所述待检测人员的两张标注了不同注视方向的图像;
获取所述待检测人员的测试图像,将所述测试图像输入所述特定凝视估计网络中,激活输出所述测试图像的三维注视方向向量,进而得到所述测试图像中人员的注视点信息。
2.根据权利要求1所述的方法,其特征在于,对所述凝视图像进行预处理得到训练图像,包括:
旋转所述凝视图像,使得相机坐标系的x轴垂直于人员头部坐标系的y轴;
对旋转后的图像进行缩放,使得相机位于距离眼睛中心固定的距离处。
3.根据权利要求2所述的方法,其特征在于,所述编码模块为解纠缠变换编码器结构。
4.根据权利要求3所述的方法,其特征在于,所述自适应凝视估计网络为一个多层感知器;所述多层感知器包括64个隐藏层神经元和SELU激活层。
5.根据权利要求4所述的方法,其特征在于,根据多个训练图像及其对应的旋转解码图像,以及对应的潜在凝视特征,通过元学习算法学习得到自适应凝视估计网络及其初始网络权重,包括:
获取多个训练图像、其对应的旋转解码图像,以及对应的潜在凝视特征作为训练样本;
以所述训练样本的训练损失最小化为目标,通过元学习算法有随机梯度下降算法对预先设计的自适应凝视估计网络进行训练,得到自适应凝视估计网络及其初始网络权重。
6.根据权利要求5所述的方法,其特征在于,激活输出所述测试图像的三维注视方向向量,进而得到所述测试图像中人员的注视点信息,包括:
激活输出所述测试图像的三维注视方向向量,进而通过射线投影法得到所述测试图像中人员的注视点信息。
7.根据权利要求6所述的方法,其特征在于,通过射线投影法得到所述测试图像中人员的注视点信息,包括:
获取人员的双眼中心位置作为起点,以所述三维注视方向向量为方向,向相机坐标系发出射线;
根据所述射线与所述相机坐标系xOy平面的交点得到人员的注视点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南中科助英智能科技研究院有限公司;中南大学湘雅医院,未经湖南中科助英智能科技研究院有限公司;中南大学湘雅医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210764266.8/1.html,转载请声明来源钻瓜专利网。