[发明专利]用于第一人称视角中基于深度学习识别手势的系统和方法有效
申请号: | 201811098719.8 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109635621B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | R·S·M·和巴拉古皮;R·佩拉 | 申请(专利权)人: | 塔塔顾问服务有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/778;G06V10/764;G06V10/94;G06N3/0442;G06N3/047;G06N3/08 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 印度*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 第一人称 视角 基于 深度 学习 识别 手势 系统 方法 | ||
所提供的是一种用于手势识别的系统和方法。该方法包括:接收通过使用可通信地耦合到可穿戴AR设备的至少一个RGB传感器从用户的第一人称视角(FPV)所捕获的场景的媒体流的帧。媒体流包括与场景的帧相关联的RGB图像数据。场景包括由用户执行的动态手势。通过使用深度学习模型,从RGB图像数据估计与动态手势相关联的时间信息。估计的时间信息与用户的手姿态相关联,并且包括在多个帧中的用户的手上所识别的多个关键点。通过使用多层LSTM分类网络,基于关键点的时间信息将动态手势分类为至少一个预定义手势类。
相关申请的交叉引用和优先权
本发明要求于2017年10月7日在印度提交的印度申请(标题:System and Methodfor deep learning based hand gesture recognition in first person view(用于在第一人称视角中基于深度学习进行手势识别的系统和方法))第201721035650号的优先权。
技术领域
本文的实施方式总体涉及对手势的检测,并且更具体地涉及用于检测三维动态手势与简约的增强现实(AR)设备(例如头戴式设备)之间的交互的系统和方法。
背景技术
近年来,可穿戴增强现实(AR)设备已经非常流行。在这样的设备中所使用的用户交互模态指出手势在AR/VR(虚拟现实)应用中形成直观的交互手段的事实。这些设备使用各种板上传感器和定制处理芯片,这通常使得该技术依赖于复杂和昂贵的硬件。这些设备是为了执行特定功能而量身定制的,并且由于其过高的价格而几乎无法容易获得。
常规通用平台,例如,Microsoft KinectTM和Leap MotionTM的控制器提供了急需的抽象概念。在此,发明人已经认识到这种常规系统的如下所述的若干技术问题。由于存在红外辐射并且存在反射表面(例如,厚玻璃和水下),这种常规平台/装置在不同的光条件(例如,直射阳光、白炽光和室外环境)下表现不佳。
发明内容
以下呈现了本公开的一些实施方式的简化概述,以便提供对实施方式的基本理解。该概述不是实施方式的泛述。其不旨在识别实施方式的关键/重要要素或划定实施方式的范围。其唯一目的是以简化形式呈现一些实施方式,作为下面给出的具体实施方式部分的序言。
鉴于前述内容,本文的实施方式提供了用于手势识别的方法和系统。用于手势识别的方法包括:经由一个或多个硬件处理器,接收通过使用可通信地耦合到可穿戴AR设备的至少一个RGB传感器从用户的第一人称视角(FPV)所捕获的场景的媒体流的多个帧。媒体流包括与场景的多个帧相关联的RGB图像数据。场景包括由用户执行的动态手势。此外,该方法包括经由一个或多个硬件处理器,通过使用深度学习模型从所述RGB图像数据估计与所述动态手势相关联的时间信息。估计的所述时间信息与所述用户的手姿态相关联并且包括在所述多个帧中的所述用户的手上所识别的多个关键点。此外,该方法包括:经由一个或多个硬件处理器,通过使用多层长短期记忆(LSTM)分类网络,基于与所述多个关键点相关联的所述时间信息将动态手势分类为至少一个预定义手势类。
在另一方面,提供了一种用于手势识别的系统。该系统包括一个或多个存储器;一个或多个硬件处理器,所述一个或多个存储器耦合到所述一个或多个硬件处理器,其中所述至少一个处理器能够执行存储在所述一个或多个存储器中的程序化指令以接收通过使用可通信地耦合到可穿戴AR设备的至少一个RGB传感器从用户的第一人称视角(FPV)所捕获的场景的媒体流的多个帧。媒体流包括与场景的多个帧相关联的RGB图像数据。场景包括由用户执行的动态手势。所述一个或多个硬件处理器还通过所述指令配置成,通过使用深度学习模型从RGB图像数据估计与动态手势相关联的时间信息。估计的时间信息与用户的手姿态相关联,并且包括在多个帧中的在用户的手上所识别的多个关键点。此外,所述一个或多个硬件处理器还通过所述指令配置成,通过使用多层LSTM分类网络,基于所述关键点的时间信息将所述动态手势分类为至少一个预定义手势类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔顾问服务有限公司,未经塔塔顾问服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811098719.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自助服务终端(SST)面部认证处理
- 下一篇:身份识别方法、装置及电子设备