[发明专利]基于非线性融合深度3D卷积描述子的行为识别方法有效
申请号: | 201710568540.3 | 申请日: | 2017-07-13 |
公开(公告)号: | CN107423697B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 同鸣;赵梦傲;李明阳;汪厚峄 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 非线性 融合 深度 卷积 描述 行为 识别 方法 | ||
本发明公开了一种基于非线性融合深度3D卷积描述子的行为识别方法,主要解决现有技术识别准确率低的问题。其方案是:1.将每个样本输入到C3D网络中获取各层激活值;2.对C3D网络的每一层进行处理,得到每一层的特征向量;3.融合不同层的特征向量,得到全局特征集合和局部特征集合;4.对全局特征集合和局部特征集合进行判别性非线性融合,得到深度3D卷积描述子;5.获取训练样本的深度特征用于训练线性SVM分类器;6.获取测试样本的深度特征输入到线性SVM分类器中进行识别。本发明提高了行为识别的准确率,在UCF‑Sports库上取得了94.67%的识别率,可应用于人机交互、视频监控和视频检索。
技术领域
本发明属于视频处理技术领域,特别涉及一种行为识别方法,可应用于人机交互、视频监控和视频检索。
背景技术
目前,视频处理领域的行为识别方法主要包括人工特征和深度学习两种方法。其中,人工特征通常是基于受控环境的领域知识而设计的,然而真实场景中的视频数据并不能总是被正确地建模,因此人造特征的泛化能力不足够。由于视频中包含了非常丰富的语义信息,传统人工特征直接用于行为识别,缺乏一定的语义信息和足够的判别能力,容易引起行为识别混淆。
最近几年,基于深度学习的行为识别方法取得了巨大的成功和进步。深度学习通常利用深度卷积神经网络进行行为识别,用于行为识别的深度卷积神经网络主要有:2D卷积网络、3D卷积网络和C3D网络。其中,3D卷积网络模型要优于传统的2D卷积网络模型。然而,3D卷积网络模型需要使用人体检测器和头部跟踪算法对视频进行分割,以分割后的视频片段作为3D卷积神经网络的输入,存在很大的局限性。相比于3D卷积网络,C3D网络能够学习视频中的空时信息,并且可以直接将完整的视频作为输入,不依赖于任何预处理,因此易于扩展到大规模数据集。然而,C3D网络在进行行为识别时,仅用到了顶层的全局特征,网络中作为重要局部特征的底层特征,未得到充分重视。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于非线性融合深度3D卷积描述子的行为识别方法,通过融合C3D网络不同层特征,以获得更具判别性的特征表示,提高行为识别率。
实现本发明的技术关键是构建一种判别性非线性融合方法,利用这一方法对从C3D网络中提取出的全局特征和局部特征进行融合,得到深度3D卷积描述子,利用SVM对数据进行分类,实现步骤包括如下:
(1)利用C3D网络获取每个样本的L个特征向量u,其中,L为C3D网络的层数;
(2)根据特征向量u,获取每个样本的全局特征向量x和局部特征向量y,得到全局特征集合X和局部特征集合Y;
(3)根据全局特征集合X和局部特征集合Y,获取深度3D卷积描述子DC3D;
(4)根据深度3D卷积描述子DC3D,得到每个训练样本的深度特征向量ztrain和每个测试样本的深度特征向量ztest;
(5)根据训练样本的深度特征向量ztrain,训练线性SVM分类器;
(6)根据线性SVM分类器,对每个测试样本的深度特征向量ztest进行分类,得到每个测试样本的分类结果。
本发明与现有技术相比具有以下优点:
本发明利用C3D网络提取数据的全局特征和局部特征,通过非线性融合得到了一种更具判别性的深度3D卷积描述子,利用深度3D卷积描述子训练SVM分类器,提高了行为识别的准确率。
附图说明
图1是本发明的实现流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710568540.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矿低瓦斯提纯及回收燃烧装置
- 下一篇:一种天然气燃烧炉的炉盖