[发明专利]基于注意力机制从单幅彩色图像进行手部姿态估计的方法有效
申请号: | 201910489248.1 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110210426B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 蒋杰;王翔汉;郭延明;高盈盈;康来;魏迎梅;雷军 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/73 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 马骁 |
地址: | 410003*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 单幅 彩色 图像 进行 姿态 估计 方法 | ||
1.基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,包括以下步骤:
通过图像获取装置获取具有手部状态的单幅彩色图像,从所述单幅彩色图像中裁剪出手部区域图像;
根据所述手部区域图像提取2D关节热图;
级联所述2D关节热图和所述手部区域图像并且根据注意力机制得到所述图像获取装置坐标系下的3D手部关节点位置和所述图像获取装置的旋转角,所述级联操作包括:
Flj=Imask*C1j
F2j=pJ*C2j
其中,F1j和F2j是卷积操作输出的结果,*表示C1j和C2j对图像进行的卷积操作,表示对F1j和F2j进行级联操作,Imask为所述手部区域图像,pJ为所述2D关节热图,C1j和C2j为四个并行的卷积操作,k=j=1,2;所述注意力机制包括:将4×4×256的Fk挤压成4×4×16来计算ReLU线性函数激活的描述符Lk,其中Lk的第i个统计量的计算方法为:
对Lk进行激励操作,使其维度增加,其公式为:
Rk=CHe(Lk,U)=σ(U2δ(U1Lk))
得到注意力机制的输出Ok:
Ok=Fk·Rk
其中,δ表示ReLU线性激活函数,其中,i∈[1,256],h为全连接层U1的维数,U1、U2代表全连接层;fki为Fk的第i个通道的特征图,CHs表示挤压操作,挤压后的特征图Lk传入全连接层U1中,将其维数限制为h,通过激励操作CHe还原维度,σ为sigmoid函数;
根据所述3D手部关节点位置和所述旋转角进行手部姿态估计。
2.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,从所述单幅彩色图像中裁剪出手部区域图像的方法为采用HandSegNet进行裁剪。
3.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,利用PoseNet从所述手部区域图像提取2D关节热图。
4.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,所述卷积操作均包含6个卷积层和ReLU线性激活函数,但不进行参数共享。
5.如权利要求4所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,得到所述图像获取装置坐标系下的3D手部关节点位置和所述图像获取装置的旋转角遵循:
Wcamera=O1*FC1
R=O2*FC2
其中,FC1和FC2分别代表不同全连接层的全连接操作,R为相机的旋转角。
6.如权利要求4所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法,其特征是,根据所述3D手部关节点位置和所述旋转角预测手部状态遵循:
Wworld=WcameraR
其中,Wworld为3D坐标W在世界坐标系下的坐标,Wcamera为3D坐标W在相机坐标系下的坐标,R为相机的旋转角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489248.1/1.html,转载请声明来源钻瓜专利网。