[发明专利]一种基于深度卷积神经网络的人体姿势识别方法有效
申请号: | 201510444505.1 | 申请日: | 2015-07-27 |
公开(公告)号: | CN105069413B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 董乐;张宁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 电子科技大学专利中心51203 | 代理人: | 张杨 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 神经网络 人体 姿势 识别 方法 | ||
技术领域
本发明属于模式识别与信息处理技术领域,涉及计算机视觉方面的行为识别任务,尤其涉及基于深度卷积神经网络的人体姿势估计系统的研究与实现方案。
背景技术
人体姿势估计是指在图像中定位人体关节或人体各部分位置的过程。它是计算机视觉中的一个关键问题,是基于图像的行为识别的基础技术。人体姿势估计可被用于视觉监控系统,人体分割,机器人控制,体感游戏等领域。人体姿势估计的难点在于:身体关节点小,不易检测;身体自身遮挡严重,外貌变化大,面内和面外旋转(in-plane and out-plane rotations)造成视觉变化大。姿势估计的主流方法都是基于图结构模型(PS,Pictorial Structures Model)的。图结构模型是一个通用物体结构表达模型。在图结构模型下,一个物体(或人)的结构被表示为一个一元项和一个二元项的和,其中,一元项表示人体单独的一个部分,二元项表示两个(或多个)部分之间的空间关系。一元项和二元项的和构成一个能量函数,最小化这个能量函数可以得到一个最优的结构表达。基于图结构的人体姿势估计方法的流程为:
1.人体每个单独部分的表示。通常的方法是在人体的特定部分提取图像特征来训练可以表示该部分的模板。在训练好模板以后,以重叠的滑动窗口(overlapping sliding windows)去扫描图片,检测出许多可能的位置;
2.人体各个部分的空间关系的表示。人体各部分空间约束可以是多方面的,例如,各个部分同时出现的概率,在同一直线上的概率以及角度关系,距离约束等等。空间约束构成了图结构模型的二元项;
3.人体姿势推理。由于人体姿势复杂多样,人体各部分之间存在多种空间约束。如果对人体各个部分都施加约束,最终会形成一个图。这个图的点(node)表示人体的各个部分(即一元项),边(edge)表示人体各个部分的约束(即二元项)。优化这样一个问题会耗费大量时间,甚至使问题不可计算。为了高效的推理出人体姿势,通常会将各个部分之间的约束简化为两个相邻部分的空间约束,即图结构简化为树形结构。
传统方法有两个局限性。首先,人工设计的图像特征具有局限性,例如,有的特征适合表示具有清晰纹理的物体,有的特征适合表示具有清晰轮廓的物体。设计一种适合人体姿势估计的特征需要大量的经验和研究。除此之外,空间模型也具有局限性。传统的人体姿势估计方法为了计算效率,通常需要假设人体姿势构成树形结构。这种假设显然会限制其模型的表达能力,例如,在有人体存在自身遮挡的情况下,人体姿势通常并不是树形的,而是有环图。在树形结构的假设下,人体姿势估计的准确度和使用范围都被限制了。
深度学习技术的逐渐成熟,为人体姿势估计提供了新的工具。基于深度学习的方法可以分为两类:一类是利用深度卷积神经网络来学习图像特征,以代替传统的人工设计的特征;另一类是利用深度卷积神经网络的非线性映射做非线性推理,以突破树形结构的限制。但现有的基于深度学习的方法主要有以下缺陷:
1.大多数方法只是简单地将AlexNet直接应用到姿势估计中。而AlexNet最初是为图像分类任务而设计的;
2.大多数方法将人体关节定位问题阐述为回归问题,这样的阐述虽然简单,但却让深度网络的训练变得困难;
3.有的方法通过训练基于卷积神经网络的检测器(Convolutional Part Detector)来检测人体部分的位置。这种方法具有较好的准确度,但由于其需要使用滑窗进行检测,它的效率并不高;
为了解决这些问题,本方法为姿势估计阐述为分类问题,并设计了一个针对姿势估计的深度网络:ILPN(Independent Losses Pose Net)来进行关节定位。在FLIC dataset上的结果表明,我们的方法取得了当前最高的准确率。在Buffy dataset上的跨数据集泛化能力(cross-dataset generalization)测试取得了具有竞争力的结果。值得一提的是,我们的模型训练和测试都是在廉价设备(Dual-Core CPU+NV GTX750)上进行的。
发明内容
本发明的目的在于提出一种快速准确地估计出RGB图像中人体姿势的方法,由此,为基于图像的行为识别提供良好的基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510444505.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:龙门式冲压机床的飞轮安装结构
- 下一篇:移送系统、电解精炼系统及移送方法