[发明专利]一种基于单一深度图像的精确三维手和人体姿态估计方法在审
申请号: | 201810046261.5 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108108722A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 体素 人体姿态 三维 深度图像 预测 卷积神经网络 解码器 非线性映射 技术构造 目标位置 人体行为 网络模型 下采样块 整体架构 网络 编码器 反投影 基本块 上采样 失真 耗时 改进 透视 | ||
1.一种基于单一深度图像的精确三维手和人体姿态估计方法,其特征在于,主要包括网络模型(一);改进的目标位置(二);系统的输入(三);体素对体素预测网络(四)。
2.基于权利要求书1所述的网络模型(一),其特征在于,模型的任务是估计所有关节的三维坐标,主要分为以下三个步骤:
第一,通过把点反投影到三维空间并离散化连续的空间,从而实现将二维深度图转化为三维体积表示式;
第二,把三维体素化的数据作为体素对体素预测网络的输入,用于估计每一个关节的每一个体素的似然值;
第三,找出每一个关节的最大似然值所对应的位置以及其所代表的真实坐标,并将此作为模型的最终结果。
3.基于权力要求书1所述的改进的目标位置(二),其特征在于,其前提条件是需要一个包含三维空间中的手或者人体的立体框。
4.基于权利要求书3所述的立体框,其特征在于,其位置通常处于参考点附近;而参考点可以选择标定好的公共位置,或者可以通过在手的区域限制一个简单的深度阈值之后选取其质心。
5.基于权利要求书4所述的标定好的公共位置以及质心,其特征在于,其具有以下局限性:
第一,对于标定好的公共位置,其在实际应用中不容易获取;
第二,对于质心,在复杂环境中,由于质心存在误差,从而导致其不能保证目标准确地处于所求得的立体框里面。
6.基于权利要求书5所述的局限性,其特征在于,为了克服局限性,可以通过训练一个简单的二维卷积神经网络,用于估计一个准确的参考点。
7.基于权利要求书6所述的二维卷积神经网络,其特征在于,通过在手的区域限制一个简单的深度阈值,计算其质心作为参考点;输入一张深度图像,并输出计算所得的参考点与标定好的公共位置的中心点之间的三维偏移量;然后在之前计算所得的参考点上,加上此偏移量,得到改进的参考点。
8.基于权利要求书1所述的系统的输入(三),其特征在于,首先,把二维深度图的每一个像素反投影到三维空间;然后,把三维空间离散化成为预先定义的体素大小;接着,在参考点周围画立体框,提取目标;最后,设置与深度点位置相一致的体素值为1,其他位置的体素值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810046261.5/1.html,转载请声明来源钻瓜专利网。