[发明专利]一种基于深度学习的三维动态手势识别方法在审
| 申请号: | 201810142141.5 | 申请日: | 2018-02-11 |
| 公开(公告)号: | CN108256504A | 公开(公告)日: | 2018-07-06 |
| 发明(设计)人: | 周翔;王超;李欢欢;张冠良;孟强;杨若洋;徐文;香玫元 | 申请(专利权)人: | 苏州笛卡测试技术有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T17/00;G06T7/80 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 215500 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征点 立体视觉技术 轨迹识别 减小 匹配 三维 动态手势识别 轨迹定义 立体视觉 区域特征 三维重建 深度相机 实时动态 手势识别 低成本 结构光 运算量 稀疏 学习 手势 追踪 重建 | ||
1.一种基于深度学习的三维动态手势识别方法,其特征在于:由相对设置的两个相机和一个计算中心构成,两个相机都与计算中心连接,两个相机用于采集图像;计算中心用于对采集到的手势图像使用深度学习方法进行手势区域提取、手势在图像上的特征点提取、特征点匹配和三维重建、以及三维姿态分析与轨迹追踪、完成手势的动态识别。
2.如权利要求1所述基于深度学习的三维动态手势识别方法,其特征在于:两个相机构成双目立体视觉系统,双目立体视觉系统用于获取手势三维模型;两个相机之间光轴存在0°到120°夹角,保证存在足够重合视场。
3.基于权利要求1、2所述基于深度学习的三维动态手势识别方法,其特征在于:双目立体视觉三维重建部分,采用相机标定方法获取相机内外参数,只重建相机采集图像上的手势特征点的三维坐标,用于后续手势动作的分析。
4.基于权利要求1、3所述基于深度学习的三维动态手势识别方法,其特征在于:手势特征点提取部分,采用深度学习方法,预先训练深度识别模型a、b,模型a用于识别相机采集到的图像中手势区域ROI,模型b提取模型a识别到的手势区域ROI内的手势在图像上特征点。
5.基于权利要求1、2、3、4所述基于深度学习的三维动态手势识别方法,其特征在于:三维姿态估计与轨迹追踪部分,根据双目立体视觉系统重建得到的手势特征点三维信息和其每一帧的变化,判断手势动作。
6.基于权利要求1所述基于深度学习的三维动态手势识别方法,其特征在于,按照如下步骤:
第一步:相机标定,两个相机构建双目立体视觉系统,分别标定两个相机内外参数,用于获取被测物体三维信息,两个相机内外参数包括相机有效焦距、光心、像元间距、两相机坐标系间平移矩阵和旋转矩阵;
第二步,使用深度学习方法训练深度识别模型,通过大量预先标记好的手势区域图像训练深度识别模型a,通过预先标记好手势特征点图像训练深度识别模型b;
第三步,图像采集与手势特征点提取,使用双目立体视觉系统的相机采集图像,使用深度识别模型a、b识别出采集图像中的手势区域和手势在图像上特征点;
第四步,根据双目立体视觉系统内外参数和第三步得到的两个相机拍摄到手势区域的在图像上特征点重建出特征点三维坐标;
第五步,取相机连续多帧的提取的手势特征点三维坐标,与预先定义好的手势动作对比,判读手势含义。
7.基于权利要求6所述基于深度学习的三维动态手势识别方法,其特征在于,按照如下步骤:
第一步,搭建双目立体视觉系统,标定相机内外参数:
(1)双目立体视觉根据光学三角法获取物体的三维信息,其关键是精确标定双目系统获得内外参数,匹配空间点分别在两个相机成像面上的像素坐标,根据视差原理计算深度信息;
双目立体视觉利用视差原理,根据光学三角法获取被测物体的深度信息;O1xwywzw是世界坐标系,O1xwywzw与左摄像机坐标系重合,yw垂直纸面;C1U1V1是左摄像机成像平面坐标系,V1垂直于纸面,C2U2V2是右摄像机成像平面坐标系,V2垂直于纸面;f是主距,b是基线长度;一空间点P的世界坐标为(xW,yW,zW),P在左、右摄像机成像平面中的坐标分别为P1(u1,v1)和P2(u2,v2);由于摄像机处在标准的双目立体视觉系统下,则v1=v2=h,根据相似三角形可得:
令dw=u2-u1,则P的三维世界空间坐标:
由于主点是以像素为单位的,而dw的单位是世界单位,因此需要通过使用x方向上的像素尺寸缩放dw,将其转换到像素坐标下:
dp=dw/sx;
式中:
sx——x方向的缩放比例因子;
而在图像坐标系中:
dp=(cc1-cc2)+(c2-c1);
式中:
cc1,cc2——主点在图像坐标系下的列坐标;
c1,c2——点P1和P2在图像坐标系下的列坐标;
由于cc1-cc2对所有点都是常量,且通过摄像机标定及校正就可以得到,因此,P的世界坐标是与d=c2-c1相关的,这个差值d就是左、右图像的视差;因此,只要找出左、右图像中的匹配点,获取视差图,再经相机标定内外参数,就能重构出空间点的三维坐标;
(2)相机内外参数标定:
双目立体视觉系统是通过三角法计算物体的三维尺寸;而所谓三角是,两个相机的图像平面和被测物三者组成一个三角形,必须已知这三者之间的位置关系,通过三角法求解出被测物的三维空间尺寸;为了获取被测物到两个相机图像平面的成像关系和两个相机之间的位置关系,需要在测量前对系统进行标定;利用旋转矩阵的正交条件以及非线性优化进行求解;标定图片拍摄过程中,相机和标标定都可以自由移动,且不需要知道运动参数;控制在0.5个Pixel以内;相机内外参数,完成了一点P从世界坐标系PW向图像坐标系(u,v)T的变换,即:
要完成空间点从世界坐标系向图像坐标系的转换,就要已知上述公式中的所有未知量,A和B分别表示内参矩阵和外参矩阵;其中,sx,sy,cx,cy和f是相机的内部参数,称作相机内参;R=R(α,β,γ)和T=(tx,ty,tz)T是相机在世界坐标系中的位姿,称作相机外参;
第二步,使用深度学习方法训练深度识别模型;采集手势图片作为深度学习的训练输入,大量预先标记好的手势区域标签数据,手势区域标签数据为在图片上手势所在框的位置,手势特征点标签数据作为深度学习训练的输出,通过训练学习网络得到用于识别手势特征区域和特征点的深度学习识别模型;
第三步,图像采集与手势特征点提取;使用双目立体视觉系统的相机采集图片,将其作为深度识别模型的输入,识别出采集图片中的手势区域和手势在图像上特征点;其中特征点的定义由标签数据定义,a-1与b-1分别为两相机采集图片上的对应点,以此类推;得到多组手势上的特征对应点,再通过双目立体视觉系统得三维重建原理就可以得到特征点的三维坐标;
第四步,根据双目立体视觉系统内外参数和第三步得到的两个相机拍摄到手势区域的在图像上特征点重建出特征点三维坐标;由第二步可知,通过摄像机标定及校正,对于图像上任意一点,其三维坐标与d=c2-c1相关的,这个差值d就是左、右图像的视差;因此,只要找出左、右图像中的匹配点,所述匹配点即第三步深度学习方法提取出的两个相机采集到的特征对应点,获取视差,就能重构出空间点的三维坐标。
第五步,取相机连续多帧的提取的手势特征点三维坐标,与预先定义好的手势动作对比,判读手势含义;以图4所示的指尖点击操作为例,当点击操作进行时,点击的指尖点的三维坐标将在z向发生较大变化,x,y方向发生微小便宜,因此,我们可以依此来定义点击动作;设图4上A,B,C点分别为指尖进行点击操作时采集的三帧图像,通过上面方法求得三维坐标依次为P1(x1,y1,z1)、P2(x2,y2,z2)、P3(x3,y3,z3),我们定义向量a=(x2-x1,y2-y1,z2-z1),向量b=(x3-x2,y3-y2,z3-z2),点击移动变化阈值t,向量夹角阈值n,只要指尖坐标变化满足条件{|x1-x2|<t,|x2-x3|<t,|y1-y2|<t,|y2-y3|<t,m=arccos(ab/|a||b|)>n},则我们认定发生点击操作;同理,只要我们定义合适约束条件,就能够根据相应特征点运动轨迹判断当前发生动作含义,实现人机交互等功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州笛卡测试技术有限公司,未经苏州笛卡测试技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810142141.5/1.html,转载请声明来源钻瓜专利网。





