[发明专利]一种基于几何驱动的自监督人体3D姿态估计网络训练方法有效
| 申请号: | 201911301729.1 | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN111062326B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 李侃;李杨 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/774 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 几何 驱动 监督 人体 姿态 估计 网络 训练 方法 | ||
本发明涉及一种基于几何驱动的自监督人体3D姿态估计网络训练方法,属于人工智能计算机视觉领域,能够有效解决当前基于深度学习的人体3D姿态网络训练需要大量的人体3D关节点标注数据的技术问题。本发明方法,不依赖人体3D关节点标注数据,完全依靠几何先验知识,可以避免繁琐的人体3D关节点的标注过程,所提出的变换重投影损失可以探索多视角一致性以训练人体3D姿态估计网络,可以在训练过程中获得更加准确的人体3D姿态预测结果,所提出的根节点位置估计网络在3D姿态估计网络训练过程中保留重投影的2D姿态的尺度信息,可以在训练过程中获得更加准确的人体3D姿态预测结果,所提出的网络预训练方法可以帮助网络训练有效地收敛。
技术领域
本发明涉及一种人体3D姿态估计网络训练方法,特别涉及一种基于几何驱动的自监督人体3D姿态估计网络训练方法,属于人工智能计算机视觉领域。
背景技术
人体3D姿态估计,是计算机视觉领域一个长期被研究的问题。近年来,随着深度学习在计算机视觉领域取得巨大的成功,人体3D姿态估计也逐渐被形式化为基于学习的框架。
基于深度学习的人体3D姿态估计方法,通常可以被分为两类:第一类方法,使用端到端的卷积神经网络,直接从输入图像中预测人体的3D关节点位置。第二类方法,采用两阶段的框架,首先使用现有的人体2D关节点检测器获得图片中人体关节点的位置,然后通过2D-3D姿态提升网络得到人体的3D姿态。为了学习到2D和3D关节点位置之间的映射关系,各种2D-3D姿态提升网络被提出。此外,还有一些工作挖掘视频的时间/运动信息以产生更加平滑的预测结果。
由于人体3D关节点的标注是一项劳动密集且成本昂贵的工作,弱/自监督方法最近受到了广泛关注。一些研究人员探索相机几何先验知识来构监督信号,重投影损失是其中使用最广泛的技术。然而,由于深度模糊问题的存在,仅使用重投影损失不能准确地约束关节点的深度。为了解决此问题,一些研究人员,通过在网络训练中使用人体3D骨架的骨骼长度约束或者对抗损失来解决此问题。然而,骨骼长度约束和对抗损失仍然需要一些额外的没有2D和3D关节点对应关系的人体3D关节点标注。
发明内容
本发明的目的是为了克服现有技术的缺陷,解决目前基于深度学习的人体3D姿态网络训练,需要大量的人体3D关节点标注数据的问题,提出一种几何驱动的自监督人体3D姿态估计网络训练方法。
本发明的目的是通过下述技术方案实现的。
一种基于几何驱动的自监督人体3D姿态估计网络训练方法,包括下述步骤:
步骤1:采集人体姿态训练数据,构造训练数据集。
利用多个相机进行标定,记录相机的内参和外参。对于场景中的同一个人,收集多个视角下相机拍摄的照片,构造训练数据集。
步骤2:对训练数据集中的人体2D关节点进行检测。
在训练数据集中,从同一时刻多个视角拍摄的图片中,任意选取两张。使用层级金字塔网络,对两张图片中的人体2D关节点位置进行检测。定义X1,分别为两张图片中人体的N个的关节点位置的2D坐标。
步骤3:设计一个人体3D姿态估计网络,将人体2D关节点位置X1,X2投射到3D空间中,估计人体的相对3D姿态。
具体实现如下:
步骤3.1:设计一个3D姿态估计网络该网络包含四个残差模块,每个模块均由2个全连接层(1024个通道)及其对应的批归一化层、整流线性单位层和池化层组成。最后,3D姿态估计网络连接了一个N×3通道的全连接层输出N个关节点的3D位置坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301729.1/2.html,转载请声明来源钻瓜专利网。





