[发明专利]一种基于双流卷积神经网络的危险行为自动识别方法在审

申请号：	201910552632.1	申请日：	2019-06-25
公开（公告）号：	CN110084228A	公开（公告）日：	2019-08-02
发明（设计）人：	邓杨敏;李亨;吕继团	申请（专利权）人：	江苏德劭信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	卷积神经网络自动识别危险动作视频双流背景信息人工标注人物动作危险行为构建降低噪声空间特征时间特征时空特征视频背景视频数据网络学习行为识别训练网络有效解决视频帧减小送入融合网络监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双流卷积神经网络的危险行为自动识别方法，其特征在于，包括以下步骤：

Step1 原始数据准备

针对常见的人物危险行为，选择自杀、偷窃和打架三种相对典型的人物危险动作，通过来自监狱、银行、超市以及部分来自公安系统的包含上述危险动作的视频数据；

Step2 数据预处理

数据增强：通过对视频进行水平翻转、对比度、亮度以及加噪处理，将原来的视频数据扩大4倍；

将大小、帧率各不相同的视频数据统一到相同的大小和25帧率；

Step3 数据集制作

针对Step 2预处理后的数据进行人工分类，将人工分类信息作为网络训练的类别监督信息；随机选取增强后视频数据的60%作为训练数据，剩余的作为测试数据；随机选取训练数据中的30%使用可视化的图像标定工具labelimg将视频中的人物标出；

Step4空间特征与时间特征的提取网络构建

Step4-1 空间特征提取网络构建

空间流卷积神经网络的输入是单个视频帧，它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型；本空间特征提取网络基于LeNet-5网络构建；LeNet-5是卷积神经网络“Convolutional Neural Networks, CNN”的一种代表性网络，包括有卷积层、池化层、连接层和输出层，每层包含多个相互独立的神经单元；

经典的LeNet-5网络共包括7层，卷积层C1、C3、C5均使用5*5的卷积核，池化层S2、S4均使用大小为2*2模板进行平均池化，F6全连接层包括84个神经元节点，计算C5输出向量和权重向量之间的点积，OUTPUT层由一个全连接层构成，包括10个节点，采用径向欧式距离函数“Euclidean Radial Basis Function”的网络连接方式，RBF的计算方法如公式（1）所示：

（1）

其中，表示输出层第i个的输出，表示F6层第j个节点的值，表示i节点和j节点之间的连接权重；

Step4-2 时间特征提取网络构建

光流信息是连续视频帧之间的像素点位移场，描述的是视频的运动信息；对于视频中第i帧的像素点，在第k帧上记该像素点为，使用FlowNet“LearningOptical Flow with Convolutional Network”计算光流，则该像素点从i帧到k帧的光流描述为变化，的计算方法如公式（2）所示：

（2）

其中，分别表示视频中第i帧和第帧；对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流，最终获得第i帧到第j帧的光流图；本时间特征提取网络采用与空间特征提取网络相同的LeNet-5网络；时间流卷积神经网络输入的是间隔T帧之间的光流图片；

Step5 时空特征融合

本融合视频数据中的空间特征和时间特征来进行人物行为动作的判断；此处使用简单线性加权融合提取到的时间特征和空间特征；具体融合方法如公式（3）所示：

（3）

其中，和表示时间特征和空间特征，表示融合后的特征，表示大小为的三维矩阵；

、和表示特征图的高度，、和表示特征图的宽度，、和表示特征图的通道数，且满足==，==，==，即、和为大小相同的三维矩阵，和表示权重；

Step6基于3D卷积神经网络的危险动作识别

Step6-1 3D卷积神经网络构建

基于3D卷积神经网络构建最终的危险动作识别网络；

3D卷积神经网络架构包括一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层；对于大小为连续T帧， hardwired层用于获得灰度、x方向梯度、y方向梯度、x方向光流、y方向光流5种不同特征；使用两个7*7*3的3D卷积核对5个特征分别进行卷积计算后，使用大小为2*2的模板进行下采样操作；使用7*6*3的3D卷积核对下采样后的特征继续进行卷积计算后，使用大小为3*3的模板进行下采样操作；此时经过两次3D卷积后，对于获得的特征图使用7*4大小的卷积核进行卷积计算；最终通过全连接层展开，计算动作类别的概率；

Step6-2危险动作识别模型训练

使用Step 5融合后的时空混合特征作为上述3D卷积神经网络的输入，使用Step6-1中描述的3D卷积网络结构训练危险动作识别模型；模型的训练分类前向传播和后向传播两个部分；前向阶段：首先从交通违禁物品训练集中选择批量数据输入网络，然后根据网络的数据流传播计算对应所属的实际交通违禁物品种类；后向阶段：网络的实际输出与理想输出存在误差，对误差函数求各个偏置和权值的偏导数，从而使误差沿着降速最快的方向调整各个权值和偏置；

（1）前向训练：网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小，表达式为如公式（4）所示：

（4）

其中，表示前一层的输出特征向量；表示输入到输出的连接权值；表示输出层第个输出的偏置；表示输出层中第个输出；表示非线性激励函数；

（2）反向训练：反向传播的目的是使误差达到最小，根据误差函数来对权值参数、偏置参数的梯度、进行调整；对于有个输出类别和个训练样本的多分类问题，使用的误差函数计算方法如公式（5）所示：

（5）

其中，表示第n个样本中第k类对应的分类标签；为网络输出层实际输出向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏德劭信息科技有限公司，未经江苏德劭信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910552632.1/1.html，转载请声明来源钻瓜专利网。