[发明专利]基于深度学习的监控场景下人物姿态识别方法在审
申请号: | 201711012951.0 | 申请日: | 2017-10-26 |
公开(公告)号: | CN107909005A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 宋彬;关韬;郭洁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 监控 场景 人物 姿态 识别 方法 | ||
技术领域
本发明属于图像处理技术领域,更进一步涉及计算机视觉技术领域中的一种基于深度学习的监控场景下人物姿态识别方法。本发明可用于智能监控系统中人物异常姿态的识别。
背景技术
目前,人物姿态识别方法都是基于一些对应用场景苛刻的假设上的,例如目标小的尺度变化和小的视觉改变等。但这在现实世界中是很难满足的。目前,在这方面,大部分当前的方法都是遵循两个步骤:(1)在原始的输入中提取复杂的人工特征;(2)在获取的特征上学习分类器。现实世界的场景中,几乎很难知道对于一个具体的任务什么样的特征才是重要的,因为特征的选择与具体的问题高度依赖。特别是行为识别上,不同的运动类型在外观和运动模型上都呈现出非常大的不同。而卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
东南大学在其申请的专利文献“人体动作识别中的基于空时能量分解的关键点检测方法”(专利申请号201410364346.X,公开号CN104143089A)中公开了一种基于空时能量分解的关键点检测方法。该方法包括对人体动作视频进行空时能量分解和筛选关键点候选集合的过程。首先对人体动作视频进行空时能量分解,计算得到空时能量分解矩阵和矩阵中每一点邻域内的能量和值,并设置阈值因子α,然后将邻域内的能量和值大于该阈值因子α的点选入关键点候选集合,将所述关键点候选集合中的点按能量和值从大到小排列,最后设置关键点数目k,选取确定的新的关键点候选集合中前k个点作为最终的关键点。该专利申请公开的方法存在的不足之处是:采用支持向量机(Supporting Vector Machine,SVM)提取人工特征的过程过于复杂,计算分析数据慢。
Davis J W,Bobick A F在其发表的论文“The recognition of human movement using temporal templates.”(Pattern Analysis and Machine Intelligence,IEEE Transactions on 23(3):257-267)中提出了一种基于模板匹配的人物姿态识别方法。该方法首先使用能量图和运动历史图来表示一个包含已知姿态类别的图像序列,然后利用马氏距离来计算模板之间的距离,最后通过计算观测序列的图像描述符与训练序列的图像描述符之间的距离,分类结果为其K个近邻训练序列中常见的姿态类型。该方法存在的不足之处是:对于快速运动的人体或者行人形变较大的情况,检测效果不够理想。
发明内容
本发明的目的是克服上述现有技术中存在的不足,提出一种基于深度学习的监控场景下人物姿态识别方法。本发明通过采用基于区域的卷积神经网络和全卷积神经网络技术解决人物姿态的识别问题。首先使用基于区域的卷积神经网络提取包含特征的行人目标框,然后使用全卷积网络去除行人目标框的干扰背景,准确识别图像中的行人姿态。
为实现上述目的,本发明具体实现步骤包括如下:
(1)输入图像:
选取任意分辨率的监控场景下包含行人的彩色图像,作为输入图像;
(2)利用快速区域卷积神经网络获取行人目标框:
(2a)将输入图像调整到1000×600像素的大小,得到调整后的图像;
(2b)使用快速区域卷积神经网络中的深度特征提取网络VGG,对调整后图像的三个通道信息中的每个通道,分别进行卷积和下采样特征提取处理,得到512张大小为63×37像素的特征图conv5-3maps;
(2c)将所有的特征图conv5-3maps,输入到区域建议网络RPN中两个并行的全连接神经网络中,分别进行分类和回归操作,获得63×37×9个锚点anchor的分类结果和位置结果,从中挑选出分类结果中得分最高的前300个anchor和与之对应的位置结果;
(2d)对300个anchor的位置结果进行conv5-3maps映射操作,得到300个对应的位置映射图;
(2e)将300个位置映射图输入到快速区域卷积神经网络中的感兴趣区域池化层ROI Pooling,得到300个大小为7×7像素的特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711012951.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种3D掌纹识别技术
- 下一篇:基于图像处理的高岭岩识别分选系统