[发明专利]基于深度学习的监控场景下人物姿态识别方法在审
申请号: | 201711012951.0 | 申请日: | 2017-10-26 |
公开(公告)号: | CN107909005A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 宋彬;关韬;郭洁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的监控场景下人物姿态识别方法,主要用于解决计算机视觉和模式识别领域具体的人体姿态的识别问题。其实现步骤为(1)输入图像;(2)利用快速区域卷积神经网络获取行人目标框;(3)利用全卷积神经网络对行人目标框进行掩码处理;(4)训练活动基Active Basis模型;(5)计算测试图像的预测值;(6)输出预测值。本发明使用基于区域的卷积神经网络提取包含特征的行人目标框,使用全卷积网络去除行人目标框的干扰背景,使得对人体姿态的识别更加准确。 | ||
搜索关键词: | 基于 深度 学习 监控 场景 人物 姿态 识别 方法 | ||
【主权项】:
一种基于深度学习的监控场景下人物姿态识别方法,其特征在于,包括如下步骤:(1)输入图像:选取任意分辨率的监控场景下包含行人的彩色图像,作为输入图像;(2)利用快速区域卷积神经网络获取行人目标框:(2a)将输入图像调整到1000×600像素的大小,得到调整后的图像;(2b)使用快速区域卷积神经网络中的深度特征提取网络VGG,对调整后图像的三个通道信息中的每个通道,分别进行卷积和下采样特征提取处理,得到512张大小为63×37像素的特征图conv5‑3maps;(2c)将所有的特征图conv5‑3maps,输入到区域建议网络RPN中两个并行的全连接神经网络中,分别进行分类和回归操作,获得63×37×9个锚点anchor的分类结果和位置结果,从中挑选出分类结果中得分最高的前300个anchor和与之对应的位置结果;(2d)对300个anchor的位置结果进行conv5‑3maps映射操作,得到300个对应的位置映射图;(2e)将300个位置映射图输入到快速区域卷积神经网络中的感兴趣区域池化层ROI Pooling,得到300个大小为7×7像素的特征图;(2f)将300个大小为7×7像素的特征图输入到快速区域卷积神经网络最后两个并行的全连接神经网络中,分别进行分类和回归操作,获得300个分类结果和对应的位置结果,从中挑选出行人的位置;(2g)对行人的位置进行非极大值抑制处理NMS,将抑制后的行人位置,作为行人目标框;(3)利用全卷积神经网络对行人目标框进行掩码处理:(3a)将行人目标框输入到全卷积网络中,得到与目标框大小相等的二值掩码矩阵,二值掩码中的0表示背景区域,二值掩码中的1表示行人区域;(3b)建立一个与目标框大小相等的零矩阵;(3c)填充零矩阵,得到经掩码处理的行人目标框;(4)训练活动基Active Basis模型:(4a)将经掩码处理的行人目标框,按照用户选取的姿态类别标签和数量,进行分类标注;(4b)从每一类标注后的图像中随机取出百分之八十作为训练图像,剩余百分之二十作为测试图像;(4c)随机选取50个不同方向的Gabor滤波器作为特征基;(4d)根据每张训练图像与50个特征基中每个特征基的卷积值和50个特征基中每个特征基的位置偏移量,计算50个特征基的权值和50个特征基的更新值;(4e)将50个特征基的权值和50个特征基的更新值组成训练模型,保存为训练文件;(5)计算测试图像的预测值:加载训练文件,根据特征基的权值和特征基的更新值,计算测试图像的预测值;(6)输出预测值:输出所有测试图像的预测值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711012951.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种3D掌纹识别技术
- 下一篇:基于图像处理的高岭岩识别分选系统