[发明专利]基于注意力机制从单幅彩色图像进行手部姿态估计的方法有效
申请号: | 201910489248.1 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110210426B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 蒋杰;王翔汉;郭延明;高盈盈;康来;魏迎梅;雷军 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/73 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 马骁 |
地址: | 410003*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 单幅 彩色 图像 进行 姿态 估计 方法 | ||
本发明提供一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法,包括以下步骤:通过图像获取装置获取具有手部状态的单幅彩色图像,从单幅彩色图像中裁剪出手部区域图像;根据手部区域图像提取2D关节热图;级联2D关节热图和手部区域图像并且根据注意力机制得到图像获取装置坐标系下的3D手部关节点位置和图像获取装置的旋转角;根据3D手部关节点位置和旋转角进行手部状态估计。本发明将2D关节点和RGB图像的特征在通道层面中相融合。将彩色图像和2D关节点特征级联后重新规划权重,合理规划和利用各个部分特征。本发明还引入通道注意力机制提高了不同类型特征图融合的效果。通过融合通道注意力机制对手部姿态作出准确的估计。
技术领域
本发明属于一种手部姿态估计方法,具体是涉及到一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法。
背景技术
手势估计在计算机科学中起着重要作用,目的是让电脑通过算法理解人类的手势。基于计算机视觉的手势估计使人们能够与机器更自然地进行通信,其优点是受环境影响较小,用户可以随时进行人机交互(Human-Computer Interaction,HCI),并且对用户约束较小,能够让计算机及时准确地了解人发出的指令,无需任何机械的辅助。手势在人机交互过程中有及时、生动、直观、灵活和形象的特点,能够无声地完成人机交互,成功打破了现实和虚拟之间的鸿沟。
随着计算机视觉的发展,手势估计不再依赖于传统的可穿戴设备,而是直接从图像进行识别。基于计算机视觉的手势估计主要基于三类:深度图像,多目视觉彩色图像和单幅彩色图像。Markus等人提出了一种完全基于卷积神经网络的先初步定位再优化的方法,能够经过多张有标签的深度图像训练后在单张深度图像上准确的定位出手部节点位置的方法HandDeep。Ayan等人提出了利用补全矩阵(Matrix Completion)的方法进行加速,能够不依赖GPU应用于大规模实时手势姿态估计。Wan等人提出了一种适用于密集像素方式,通过非参数均值平移变量来聚合局部估计,明确地强制估计的3D关节坐标与2D和3D局部估计一致。该方法提供了比先前的现有技术和各种基线更好的2D检测和3D回归之间的融合方案。Aisha等人提出一种在条件随机场(CRF)的辅助下进行的第一人称视角下和存在遮挡情况下进行手势分割的方法,该方法第一次提出了以自我为中心的视角下和有遮挡的情况下进行手的分割和检测,通过提高分割的准确度达到提高手势估计准确度的目的。但是该方法依然没有解决遮挡物体或者背景物体与手部颜色相似的问题。Seungryul Baek提出了一种利用CycleGAN的思想扩充数据集的方法,该方法通过训练数据集,能够主动生成骨骼节点数据,在CycleGAN训练之后,通过生成对抗网络还原成深度图像。在一定程度上解决了数据集中缺少部分视角的训练数据的问题,提出问题的方法较为巧妙,用了较为复杂的循环式关系,也造成了训练过程比较繁琐、网络复杂的问题。Wan等人提出了一种基于隐空间变换的深度图像与骨骼图像匹配的方法。该方法的精确度虽然一般,但是该方法能够做到在CPU上90FPS的速度。该方法将深度图像与骨骼图映射到隐空间中,将成对的深度图像和骨骼图像映射到隐空间中同一位置,通过反卷积从隐空间还原原始图像。因此,即使基于深度图像的姿态估计方法已经日趋成熟,但是深度采集设备对用户有较大的约束,对光照、抖动和距离更加敏感,并且成本更高。很多工作通过深度图像估计人的手部姿态,虽然取得了比较好的效果,但是在图像获取上不如彩色图像方便,影响了在实际方面的应用。由于缺少深度信息,利用彩色图像估计手部姿态起步较晚,尤其是利用单幅彩色图像的手部姿态估计。C.Zimmerman实现了基于深度学习的通过单幅彩色图像的三维手部姿态估计,在不依靠任何特殊设备的情况下,利用深度网络的能力,从数据中学习合理的先验,来解决模糊问题。提出了一种可行的从二维关节点导出三维关节点的网络框架。该方法包含三个深度网络:第一个网络进行手部分割以定位图像中的手,在第一个网络的输出中,第二个网络通过CPM的方法估计二维关节点热图,第三个网络实现了从二维关节点导出三维关节点的步骤。该方法提出正则坐标系,将手部姿势在正则坐标系下的位置看成在相机坐标系下的旋转,通过神经网络计算手在正则坐标系下的位置和旋转角来还原三维关节点位置。该方法作为第一个实现了用单幅彩色图片进行三维手部姿态估计。之后,Spur利用变分编码器将图像和关节信息映射到隐空间,通过最小化对应图像和关节在隐空间的距离来提高准确度。Dibra利用弱监督学习的方法实现手势估计,这种方法不直接通过3D手部姿态进行监督,而是利用GAN将估计的3D手部姿态生成深度图像,利用深度图像进行监督学习。Muller通过GAN补全被遮挡的手部区域,能够在一定程度上解决手部区域遮挡问题。基于彩色图像的手部姿态能够使使用者脱离深度设备的束缚,更自如地通过无处不在的普通摄像头进行人机交互。张等人通过多目视觉进行手部进行追踪和姿态估计,虽然实现了利用彩色图像进行手部姿态估计,但是由于多目视觉的要求,其对用户也有一定程度的约束。基于多目视觉的手势估计实现了基于彩色图像的手势估计,但是仍然面临对用户约束较大的问题。目前基于单幅彩色图像的姿态估计方法大多是在二维层面上进行的关节点检测。虽然有些人体姿态估计的方法能够回归出三维姿态,但是由于手部有比人体更加严重的自遮挡问题,并且人体是对称的,而每个手内部是不对称的,使得手部姿态估计的方法有别于人体姿态估计的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489248.1/2.html,转载请声明来源钻瓜专利网。