[发明专利]一种基于动静特征的视频分类方法有效
申请号: | 201810237226.1 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108399435B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 陈志;周传;岳文静;陈璐;刘玲;掌静;李争彦 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06T7/246 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于动静特征的视频分类方法,解决视频分类准确度不够高的问题。本发明首先对视频中的动态特征和静态特征进行处理,利用Cholesky变换对这些信息融合后,使用GRU神经网络完成视频的分类;接着通过DT算法捕获每个视频帧的动态特征,再通过DBSCAN聚类算法将每个视频帧隔离,在每个视频片段的每个帧里构建运动框并连接每个视频片段相邻帧之间的运动框,完成动态特征的捕获和跟踪;然后通过HoG和BoW方法将动态特征生成动态信息直方图与通过CNN神经网络生成的静态信息直方图利用Cholesky变换相融合;最后利用GRU神经网络实现视频的分类。本发明通过对动态和静态信息的分开处理,能够提升视频分类的准确性,具有良好的实施性和鲁棒性。 | ||
搜索关键词: | 一种 基于 动静 特征 视频 分类 方法 | ||
【主权项】:
1.一种基于动静特征的视频分类方法,其特征在于,包括以下步骤:步骤1)输入1个视频,所述视频是用户输入的视频,将该视频分解成具有l帧的视频片段,其中每个视频片段的间隔为5帧;步骤2)通过密集轨迹跟踪算法即DT算法对步骤1)输入视频中运动的对象进行跟踪,并使用基于密度的噪声空间聚类算法(DBSCAN聚类算法)对来隔离每帧视频,实现对上述视频中动态信息的捕获和跟踪;所述的DT算法是通过网格划分的方式在图片的多个尺度上分别密集采样特征点;DBSCAN聚类算法是从某个选定的核心点出发,不断向密度可达的区域扩张,得到一个包含核心点和边界点的最大化区域;步骤3)在每个视频片段的每一帧图像中构建运动框,通过增加和删除运动管中运动框的数量使每帧图像中包含的运动框的数量一致,通过步骤2)中跟踪的运动轨迹,将每帧中的运动框连接,生成运动管;步骤4)通过计算运动管中的光流矢量,利用方向梯度直方图HoG特征的方法为每个运动管统计运动管运动的方向,再通过k均值聚类法即k‑means聚类法选取100000个描述方向的向量,从而生成对动态信息的描述;HoG特征是是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;k‑means聚类法是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;步骤5)处理静态特征的步骤如下:在数据集ImageNet上训练一个卷积神经网络即CNN神经网络,所述CNN神经网络包括5层卷积层,2层完全链接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数;将此CNN神经网络应用到最初的分解的视频片断的每个帧,从中检索到深度特征后从CNN中的softmax层输出静态特征向量;输出的静态特征向量为每个视频片段建立一个静态描述,产生的静态特征的时间序列为:C=[ct0,ct1,...,ctn‑1];其中n代表视频的片段;步骤6)通过乔里斯基变换即Cholesky变换将静态描述和动态描述进行融合,然后将融合的向量通过门控循环单元GRU神经网络,完成视频的分类;所述Cholesky变换是指通过代数的变换找到两个未知关系的变量之间的数学关系,通过矩阵的变换找到另外一个向量使得这个向量与动态描述向量和静态描述向量都用联系,从而就用这个向量来表示静态描述向量和动态描述向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810237226.1/,转载请声明来源钻瓜专利网。