[发明专利]用于第一人称视角中基于深度学习识别手势的系统和方法有效
申请号: | 201811098719.8 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109635621B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | R·S·M·和巴拉古皮;R·佩拉 | 申请(专利权)人: | 塔塔顾问服务有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/778;G06V10/764;G06V10/94;G06N3/0442;G06N3/047;G06N3/08 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 印度*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 第一人称 视角 基于 深度 学习 识别 手势 系统 方法 | ||
1.一种由处理器实施的用于手势识别的方法,所述方法包括:
经由一个或多个硬件处理器,接收从用户的第一人称视角(FPV)所捕获的场景的媒体流的多个帧,其中所述媒体流使用可通信地耦合到可穿戴增强现实(AR)设备的至少一个RGB传感器来捕获,其中所述媒体流包括与所述场景的所述多个帧相关联的RGB图像数据,其中所述场景包括由所述用户执行的动态手势;
经由所述一个或多个硬件处理器,通过使用深度学习模型从所述RGB图像数据估计与所述动态手势相关联的时间信息,其中,
所估计的所述时间信息与所述用户的手姿态相关联并且包括在所述多个帧中的在所述用户的手上所识别的多个关键点,
所述多个关键点包括手上的二十一个关键点,
所述二十一个关键点中的每个关键点包括每个手指的四个关键点和靠近所述用户的手腕的一个关键点,其中估计与所述动态手势相关联的所述时间信息包括:
使用所述深度学习网络来估计多个网络隐式3D关节先验,其中所述多个网络隐式3D关节先验包括从用户的手的多个训练样本RGB图像所确定的多个关键点;和
基于所述多个网络隐式3D关节先验,在所述多个帧中的所述用户的手上检测所述多个关键点;以及
经由所述一个或多个硬件处理器,通过使用多层的长短期记忆(LSTM)分类网络,其中基于与所述多个关键点相关联的所述时间信息将所述动态手势分类为至少一个预定义手势类。
2.根据权利要求1所述的方法,还包括在捕获所述媒体流时缩减所述多个帧。
3.根据权利要求1所述的方法,其中,多层的所述LSTM分类网络包括:
第一层,其包括由多个LSTM单元组成的LSTM层,以学习在所述用户的手上所检测到的所述多个关键点的3D坐标序列中的长期依赖性和模式;
第二层,其包括使时间数据成为一维的扁平化层;和
第三层,其包括全连接层,所述全连接层具有与所述动态手势中的每一个相应的输出分数,其中所述输出分数指示与所述动态手势中的每一个相应的后验概率,以用于在所述至少一个预定义手势类中的分类。
4.根据权利要求3所述的方法,还包括测试所述LSTM分类网络以用于对多个动态手势当中的所述动态手势进行分类,其中测试所述LSTM分类网络包括:
通过使用softmax激活函数,将所述输出分数解译成未归一化的对数概率,并使用以下等式将所述输出分数压缩到0和1之间:
其中,
K表示类的数量,s是分数的Kx1向量,是softmax函数的输入,而且
j是在0到K-1的范围内的索引,而且
σ(s)是Kx1输出向量,其表示与所述多个动态手势中的每一个相关联的所述后验概率。
5.根据权利要求3所述的方法,还包括训练所述LSTM分类网络,其中训练所述LSTM分类网络包括:
通过使用以下等式计算所述多个训练样本RGB图像中的第i个训练样本的交叉熵损失Li:
Li=-hj*log(σ(s)j),
其中h是1xK向量,其表示包括所述多个训练样本RGB图像的输入的单热标签;和
对所有的所述多个训练样本RGB图像计算Li的平均值并在所述LSTM分类网络中回传以在所述训练中微调所述LSTM分类网络。
6.根据权利要求1所述的方法,其中在将所述3D动态手势分类为所述至少一个预定义手势类时,将经分类的所述至少一个预定义手势类传送给包括所述至少一个RGB传感器的设备和所述可穿戴AR设备当中的至少一个设备,并使所述至少一个设备能够触发预定义的任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔顾问服务有限公司,未经塔塔顾问服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811098719.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自助服务终端(SST)面部认证处理
- 下一篇:身份识别方法、装置及电子设备