[发明专利]一种人体姿态估计方法及系统有效
申请号: | 202110421844.3 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113095251B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 王好谦;蔡元昊 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518088 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人体 姿态 估计 方法 系统 | ||
本发明提供一种人体姿态估计方法和系统,其方法包括:S1.对图像进行预处理,并对卷积神经网络进行预训练获得教师网络;S2.将预处理后的图像分别输入至学生网络和教师网络,学生网络为骨干采用动态路径空间的卷积神经网络;S3.教师网络输出多个不同尺度的第一特征图,再将第一特征图卷积生成第一热力图,同时第一特征图迁移至学生网络的动态路径空间的最后一个阶段的节点中;S4.学生网络输出多个不同尺度的第二特征图,再将第二特征图卷积生成第二热力图,然后第一热力图的概率分布迁移至第二热力图中生成最终热力图;S5.将步骤S4生成的最终热力图进行解码获得人体骨骼关键的坐标。该方法为轻量级,能极大提高计算效率。
技术领域
本发明涉及计算机视觉(Computer Vision)中检测识别领域,尤其涉及一种人体姿态估计方法及系统。
背景技术
人体姿态估计的主要目标是将单张RGB图像中的所有人的骨骼关键点都定位出来并连接成一个个的人体实例。人体姿态估计是计算机视觉中的一个十分重要且基础的任务。传统算法将人体姿态估计任务视为一个树状或者网状的图论模型,基于手工设计的特征去求解。这种方法的表征能力有限,无法取得较好的效果。随着深度学习的不断突破,人体姿态估计领域也取得了飞速的进展。
当前的人体姿态估计主流算法主要分为两类:自顶向下(Top-down)和自底向上(Bottom-up)。自顶向下算法首先采用一个人体检测器输出矩形边界框(bounding box)来标定出行人位置。通常而言矩形边界框是一个四元组参量(x,y,w,h),x表示矩形边界框的左上角点的横坐标,y表示矩形边界框的左上角点的纵坐标,w表示矩形边界框的宽度,h表示矩形边界框的高度,用这样一个四元组便表示出了矩形边界框的位置和大小信息。然后将包含行人的矩形框区域扣出,对每个人体实例进行单人姿态估计。单人姿态估计的流程就是对将包含单人的图片输入到设计好的卷积神经网络当中,假定人有K个骨骼关键点,则神经网络会输出K通道的热力图,每个通道表示图片中任意位置是该种类骨骼关键点的概率大小,然后对每个通道的热力图进行解码(一般是取峰值往次峰值偏移)便可得到每个骨骼关键点的二维坐标。自底向上算法首先检测出整张图片中的所有不含实例标注的人体骨骼关键点,具体而言是将包含多个人的整张图片输入到卷积神经网络当中,然后输出所有骨骼关键点的热力图,一样也是K个通道,然后对每个通道的热力图进行解码得到每一种类的骨骼关键点的二维坐标信息,接着将属于同一个人的关键点连接得到一个个的人体实例。
近年来,人们对于人体姿态估计的研究主要集中在深度卷积神经网络的设计上,通常会调用更深更宽更大的神经网络,这类神经网络虽然可以取得较好的检测效果,但是往往参数量(Parameters)大、计算复杂度(FLOPS,floating-point operations persecond)高,使得算法效率低下。而移动端设备要求速度快,延迟低,模型容量小。因此,这些算法很难部署到移动端,很难投入到实际应用当中。因此,越来越多的研究兴趣转移到模型轻量化。
现有的模型轻量化的算法有:模型剪枝,低位宽量化,采用深度可分离卷积。这三种方法的通病是盲目压缩模型的参数量导致模型的表征能力较低。同时在训练过程中缺少更多的信息来指导模型的整体优化。
知识蒸馏(Knowledge Distillation)是实现模型轻量化的一项重要技术。知识蒸馏算法中有两个卷积神经网络——学生网络(Student)和教师网络(Teacher),教师网络通常会使用一个尽心设计过的参数量和计算量较大的网络,通常教师网络会事先训练好,并且将网络的参数固定住。而学生网络通常而言参数量和计算量都较小,并且在训练学生网络时,将训练图片分别输入到学生网络和教师网络当中得到两个输出(Predictions),把教师网络的输出作为软标签(Soft Labels),真实标注(True Label)作为硬标签(HardLabels)。软标签与硬标签一同与学生网络进行损失计算。如此一来,学生网络不仅可以从真实标注中学到拟合真值所需要的隐含信息,还能从教师网络的输出中学到蒸馏出来的知识(Distilled Knowledge),从而模仿教师网络。但现有的知识蒸馏方法主要集中在图像分类,是一种基于向量的点对点的对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110421844.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可自动规划路径的全方位移动机器人
- 下一篇:一种钢铁破碎装置