[发明专利]基于深度学习的实时手势识别方法及系统有效
| 申请号: | 202110574202.7 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113269089B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 宋海涛;盛斌;王资凯;王天逸;谭峰;李佳佳;赵亦博;鞠睿 | 申请(专利权)人: | 上海人工智能研究院有限公司 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V40/20;G06V10/44;G06V10/764;G06V10/82;G06N3/042;G06N3/0464;G06N3/08;G06F3/01 |
| 代理公司: | 重庆航图知识产权代理事务所(普通合伙) 50247 | 代理人: | 孙方 |
| 地址: | 200000 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 实时 手势 识别 方法 系统 | ||
1.一种基于深度学习的实时手势识别方法,其特征在于:包括以下步骤:
采集图像并利用目标检测网络提取所述图像中的手部深度图像;
将手部深度图像转化成3D体素化数据,并输入到V2V-PoseNet网络中获得手部关键点数据;所述V2V-PoseNet网络为进行剪枝处理的V2V-PoseNet网络;
对手部关键点数据进行预处理后输入到分类网络进行手势动作分类得到手势类别;
所述手势动作分类按照以下步骤进行:
根据手部关键点数据将手势动作预定义为静态手势和动态手势;
建立静态手势分类网络和动态手势分类网络;
根据静态手势和动态手势选择对应的分类网络进行手势分类;
所述静态手势分类网络为全连接网络;所述动态手势分类网络为时空图卷积网络模型;所述时空图卷积网络模型按照以下步骤进行分类:建立多帧手部关节点时空图并输入时空图卷积网络模型得到全图特征向量;使用全连接网络得到分类结果;
所述预处理包括以下步骤:
确定初始位置:将第一帧手部图像的掌根点作为基准点;
确定手部大小:将手部图像的掌根到五指根的平均距离调整为预设值,并使得所有坐标按照以下公式等比例变换:
其中,yij为调整后第i帧第j个关节点的坐标,xij为调整前第i帧第j个关节点的坐标,x00为第0帧掌根的坐标,为第t个手指的指根索引;
所述多帧手部关节点时空图按照以下步骤建立:
获取连续的T帧手势图像,每个手势图像有N个关键点;
对多帧手部关节点构成时空图进行合并简化,通过一定的对应关系将节点信息合并,按照以下公式计算合并后节点值:
其中,yij为合并后第i帧第j个关节点的特征向量,Aj为第j个合并关节点所对应的合并前关节点的索引的集合,wα为该类对应的系数;
其中,每一节点的值按照以下公式计算:
其中,yij为下一层中第i帧第j个关节点的特征向量,Aijt为时空骨架图中与第i帧第j个关节点距离为t的点的索引的的集合,wjt为对应的系数,h为预先指定的最大作用距离。
2.如权利要求1所述的基于深度学习的实时手势识别方法,其特征在于:所述手部深度图像是通过以下步骤获取的:
获取深度图像和RGB图像;
将RGB图像输入YOLOv3网络,获得手部包围框;
将深度图像与RGB图像对齐,根据手部包围框的坐标裁剪深度图像,分离手部区域和背景区域,得到手部深度图像。
3.如权利要求1所述的基于深度学习的实时手势识别方法,其特征在于:所述手部关键点数据是通过以下步骤来实现的:
按照以下步骤进行3D体素化数据:将深度图像转化为3D体积形式,将点重新投射到3D空间,并将连续空间离散化,根据体素空间位置与目标对象设置个离散空间的体素值;
将3D体素化数据作为V2V-PoseNet网络的输入,计算每个关键点属于每个体素的似然,识别出每个关键点的最高似然对应的位置,并将其转化为真实世界的坐标,成为手部关键点数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人工智能研究院有限公司,未经上海人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110574202.7/1.html,转载请声明来源钻瓜专利网。





