[发明专利]一种基于双流卷积神经网络的危险行为自动识别方法在审
申请号: | 201910552632.1 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110084228A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 邓杨敏;李亨;吕继团 | 申请(专利权)人: | 江苏德劭信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于双流卷积神经网络的危险行为自动识别方法,本发明通过对视频中的人物进行部分人工标注来减小视频背景对人物行为识别的影响;使用LeNet‑5网络学习视频中的时间特征和空间特征,将融合后的时空特征送入3D卷积神经网络中完成对视频中人物动作的识别。本发明针对视频中存在的大量无关的背景信息,本发明对部分视频帧中的人物进行人工标注,通过增加输入的监督信息来降低噪声的干扰,有效解决了视频无关背景信息对人物动作识别的干扰。本发明基于双流卷积神经网络和3D卷积神经网络的危险动作自动识别方法,构建人物危险动作自动识别网络,使用人物危险动作视频数据训练网络,构建人物危险动作自动识别模型。 | ||
搜索关键词: | 卷积神经网络 自动识别 危险动作 视频 双流 背景信息 人工标注 人物动作 危险行为 构建 降低噪声 空间特征 时间特征 时空特征 视频背景 视频数据 网络学习 行为识别 训练网络 有效解决 视频帧 减小 送入 融合 网络 监督 | ||
【主权项】:
1.一种基于双流卷积神经网络的危险行为自动识别方法,其特征在于,包括以下步骤:Step1 原始数据准备针对常见的人物危险行为,选择自杀、偷窃和打架三种相对典型的人物危险动作,通过来自监狱、银行、超市以及部分来自公安系统的包含上述危险动作的视频数据;Step2 数据预处理数据增强:通过对视频进行水平翻转、对比度、亮度以及加噪处理,将原来的视频数据扩大4倍;将大小、帧率各不相同的视频数据统一到相同的大小和25帧率;Step3 数据集制作针对Step 2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取训练数据中的30%使用可视化的图像标定工具labelimg将视频中的人物标出;Step4空间特征与时间特征的提取网络构建Step4‑1 空间特征提取网络构建空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;本空间特征提取网络基于LeNet‑5网络构建;LeNet‑5是卷积神经网络“Convolutional Neural Networks, CNN”的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;经典的LeNet‑5网络共包括7层,卷积层C1、C3、C5均使用5*5的卷积核,池化层S2、S4均使用大小为2*2模板进行平均池化,F6全连接层包括84个神经元节点,计算C5输出向量和权重向量之间的点积,OUTPUT层由一个全连接层构成,包括10个节点,采用径向欧式距离函数“Euclidean Radial Basis Function”的网络连接方式,RBF的计算方法如公式(1)所示:
(1)其中,
表示输出层第i个的输出,
表示F6层第j个节点的值,
表示i节点和j节点之间的连接权重;Step4‑2 时间特征提取网络构建光流信息是连续视频帧之间的像素点位移场,描述的是视频的运动信息;对于视频中第i帧的像素点
,在第k帧上记该像素点为
,使用FlowNet“Learning Optical Flow with Convolutional Network”计算光流,则该像素点从i帧到k帧的光流描述为变化
,
的计算方法如公式(2)所示:
(2)其中,
分别表示视频中第i帧和第
帧;对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流,最终获得第i帧到第j帧的光流图;本时间特征提取网络采用与空间特征提取网络相同的LeNet‑5网络;时间流卷积神经网络输入的是间隔T帧之间的光流图片;Step5 时空特征融合本融合视频数据中的空间特征和时间特征来进行人物行为动作的判断;此处使用简单线性加权融合提取到的时间特征和空间特征;具体融合方法如公式(3)所示:
(3)其中,
和
表示时间特征和空间特征,
表示融合后的特征,
表示大小为
的三维矩阵;
、
和
表示特征图的高度,
、
和
表示特征图的宽度,
、
和
表示特征图的通道数,且满足
=
=
,
=
=
,
=
=
,即
、
和
为大小相同的三维矩阵,
和
表示权重;Step6基于3D卷积神经网络的危险动作识别Step6‑1 3D卷积神经网络构建基于3D卷积神经网络构建最终的危险动作识别网络;3D卷积神经网络架构包括一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层;对于大小为
连续T帧, hardwired层用于获得灰度、x方向梯度、y方向梯度、x方向光流、y方向光流5种不同特征;使用两个7*7*3的3D卷积核对5个特征分别进行卷积计算后,使用大小为2*2的模板进行下采样操作;使用7*6*3的3D卷积核对下采样后的特征继续进行卷积计算后,使用大小为3*3的模板进行下采样操作;此时经过两次3D卷积后,对于获得的特征图使用7*4大小的卷积核进行卷积计算;最终通过全连接层展开,计算动作类别的概率;Step6‑2危险动作识别模型训练使用Step 5融合后的时空混合特征作为上述3D卷积神经网络的输入,使用Step6‑1中描述的3D卷积网络结构训练危险动作识别模型;模型的训练分类前向传播和后向传播两个部分;前向阶段:首先从交通违禁物品训练集中选择批量数据输入网络,然后根据网络的数据流传播计算对应所属的实际交通违禁物品种类;后向阶段:网络的实际输出与理想输出存在误差,对误差函数求各个偏置和权值的偏导数,从而使误差沿着降速最快的方向调整各个权值和偏置;(1)前向训练:网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小,表达式为如公式(4)所示:
(4)其中,
表示前一层的输出特征向量;
表示输入
到输出
的连接权值;
表示输出层第
个输出的偏置;
表示输出层中第
个输出;
表示非线性激励函数;(2)反向训练:反向传播的目的是使误差达到最小,根据误差函数
来对权值参数
、偏置参数
的梯度
、
进行调整;对于有
个输出类别和
个训练样本的多分类问题,使用的误差函数计算方法如公式(5)所示:
(5)其中,
表示第n个样本中第k类对应的分类标签;
为网络输出层实际输出向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏德劭信息科技有限公司,未经江苏德劭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910552632.1/,转载请声明来源钻瓜专利网。