[发明专利]一种基于3D深度卷积网络的人类行为识别的方法有效

申请号：	201710697809.8	申请日：	2017-08-15
公开（公告）号：	CN107506712B	公开（公告）日：	2021-05-18
发明（设计）人：	高联丽;宋井宽;王轩瀚;邵杰;申洪宇	申请（专利权）人：	成都考拉悠然科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	夏艳
地址：	610015 四川省成都市高新***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度卷积网络人类行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机视觉视频动作识别领域，公开了一种基于3D深度卷积网络的人类行为识别的方法，所述方法首先将一个视频划分为一系列连续的视频片段；然后，将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征；然后通过长短记忆模型计算全局的视频特征作为行为模式。本发明技术具有明显优势，通过改进了标准的3维卷积网络C3D，引入多级池化能够对任意分辨率和时长的视频片段进行特征提取；同时提高模型对行为变化大的鲁棒性，有利于在保持视频质量的情况下增加视频训练数据规模；通过各个运动子状态进行关联性信息嵌入提高行为信息的完整性。

技术领域

本发明属于计算机视觉视频识别领域，尤其涉及一种基于3D深度卷积网络的人类行为识别的方法。

背景技术

在计算机视觉领域中，对行为识别的研究历经了10年以上。特征工程作为模式识别重要组成部分，一直在行为识别的领域中占主导地位。在深度学习之前，法国计算机视觉机构Inria的科学家Evan Laptev和Cordelia Schmid在行为特征学习方面的贡献最为突出。类似于ILSVRC图像识别挑战赛，基于行为识别的挑战赛THUMOS每年都在不断刷新识别记录。而来自Inria推出的行为特征计算方法一直都名列前茅。尤其在2013年，Inria的WangHeng博士提出的基于轨迹的行为特征计算方法，通过记录像素点的运动轨迹构成行为的局部特征。是目前最有效的局部特征方法。即使在当前深度学习流行的时代，该特征计算方法达到的识别性能都难以重大突破。然而，传统的特征工程方法以一种信息的量化为主，存在着信息量单一，领域知识需求性强，特征维度高等挑战，阻碍了识别性能的提升和向产业界的推广。高效地提取行为特征成为了行为识别领域的重要课题。自2012年卷积神经网络被证明能自适应学习到图像特征后，研究人员展开了对深度学习的方法在视频上识别的研究。斯坦福大学博士生Kapathy在2013年最先将深度卷积网络引入到视频领域。通过利用卷积网络提取视频帧特征完成行为的识别。牛津大学Simonyan教授在2014年计算机视觉和模式识别(CVPR)的会议上提出的基于Two-stream的行为识别方法，分别学习行为的形态表征和运动特征，进而完成行为识别。Two-stream的思想也奠定了深度学习在行为识别方面的基本方法论。随着大规模标记的数据集(ActivityNet，Youtube-8M等等)相继提出，深度学习的方法基本在行为识别领域占据了主导地位。各种适应视频数据结构的深度网络的框架提出，以寻求最合适的视频特征计算方式。虽然卷积网络在视觉学习方面有很大的优势，但是在很长一段时间内，深度学习的方法并没有像图像识别领域一样取得重大突破。直到最近，香港中文大学的Wang Li-Ming博士在欧洲计算机视觉(ECCV)会议上提出的视频时间分割思想，把视频的时间变化性引入到深度网络的计算中，突破了以往卷积网络只能学习视频片段特征的局限性，大大地提高了行为识别的性能。进而推动了深度学习在视频应用上的发展。从上面的总结可以看出，行为识别的方法有两个方向。一个是传统的特征工程方法，也称作是浅层学习方法。另一个是深度学习方法。两个方向的共同点在于如何改进特征计算方式。在浅层方式中，特征的计算方式完全是人决定的(Handcfafted)。在深度学习方式中，更注重的是如何设计网络，让网络自适应学习行为的特征。特征是通过模型和标签数据来决定。基于深度学习的行为识别中，网络的设计尤其重要。

综上所述，现有技术存在的问题是：现有的3维卷积网络存在：网络只能提取子运动状态；视频的每一个小片段都同属于同一个行为类别；现有行为识别网络只能提取子运动状态；视频的每一个小片段都同属于同一个行为类别；每个输入视频片段的尺度和时长都得固定，在这样的限制下，不能够对任意空间尺度和时长视频进行处理；同时网络学习到的是短期运动特征，缺乏完整的行为信息。

发明内容

针对现有技术存在的问题，本发明提供了一种基于3D深度卷积网络的人类行为识别的方法。

本发明是这样实现的，一种基于3D深度卷积网络的人类行为识别的方法，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司，未经成都考拉悠然科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710697809.8/2.html，转载请声明来源钻瓜专利网。

上一篇：基于卷积神经网络的双目视觉障碍物检测系统及方法
下一篇：活体人脸检测方法及存储设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于3D深度卷积网络的人类行为识别的方法有效

专利文献下载