[发明专利]一种基于3D深度卷积网络的人类行为识别的方法有效
申请号: | 201710697809.8 | 申请日: | 2017-08-15 |
公开(公告)号: | CN107506712B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 高联丽;宋井宽;王轩瀚;邵杰;申洪宇 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 夏艳 |
地址: | 610015 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 网络 人类 行为 识别 方法 | ||
本发明属于计算机视觉视频动作识别领域,公开了一种基于3D深度卷积网络的人类行为识别的方法,所述方法首先将一个视频划分为一系列连续的视频片段;然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征;然后通过长短记忆模型计算全局的视频特征作为行为模式。本发明技术具有明显优势,通过改进了标准的3维卷积网络C3D,引入多级池化能够对任意分辨率和时长的视频片段进行特征提取;同时提高模型对行为变化大的鲁棒性,有利于在保持视频质量的情况下增加视频训练数据规模;通过各个运动子状态进行关联性信息嵌入提高行为信息的完整性。
技术领域
本发明属于计算机视觉视频识别领域,尤其涉及一种基于3D深度卷积网络的人类行为识别的方法。
背景技术
在计算机视觉领域中,对行为识别的研究历经了10年以上。特征工程作为模式识别重要组成部分,一直在行为识别的领域中占主导地位。在深度学习之前,法国计算机视觉机构Inria的科学家Evan Laptev和Cordelia Schmid在行为特征学习方面的贡献最为突出。类似于ILSVRC图像识别挑战赛,基于行为识别的挑战赛THUMOS每年都在不断刷新识别记录。而来自Inria推出的行为特征计算方法一直都名列前茅。尤其在2013年,Inria的WangHeng博士提出的基于轨迹的行为特征计算方法,通过记录像素点的运动轨迹构成行为的局部特征。是目前最有效的局部特征方法。即使在当前深度学习流行的时代,该特征计算方法达到的识别性能都难以重大突破。然而,传统的特征工程方法以一种信息的量化为主,存在着信息量单一,领域知识需求性强,特征维度高等挑战,阻碍了识别性能的提升和向产业界的推广。高效地提取行为特征成为了行为识别领域的重要课题。自2012年卷积神经网络被证明能自适应学习到图像特征后, 研究人员展开了对深度学习的方法在视频上识别的研究。斯坦福大学博士生Kapathy在2013年最先将深度卷积网络引入到视频领域。通过利用卷积网络提取视频帧特征完成行为的识别。牛津大学Simonyan教授在2014年计算机视觉和模式识别(CVPR)的会议上提出的基于Two-stream的行为识别方法,分别学习行为的形态表征和运动特征,进而完成行为识别。Two-stream的思想也奠定了深度学习在行为识别方面的基本方法论。随着大规模标记的数据集(ActivityNet,Youtube-8M等等)相继提出,深度学习的方法基本在行为识别领域占据了主导地位。各种适应视频数据结构的深度网络的框架提出,以寻求最合适的视频特征计算方式。虽然卷积网络在视觉学习方面有很大的优势,但是在很长一段时间内,深度学习的方法并没有像图像识别领域一样取得重大突破。直到最近,香港中文大学的Wang Li-Ming博士在欧洲计算机视觉(ECCV)会议上提出的视频时间分割思想,把视频的时间变化性引入到深度网络的计算中,突破了以往卷积网络只能学习视频片段特征的局限性,大大地提高了行为识别的性能。进而推动了深度学习在视频应用上的发展。从上面的总结可以看出,行为识别的方法有两个方向。一个是传统的特征工程方法,也称作是浅层学习方法。另一个是深度学习方法。两个方向的共同点在于如何改进特征计算方式。在浅层方式中,特征的计算方式完全是人决定的(Handcfafted)。在深度学习方式中,更注重的是如何设计网络,让网络自适应学习行为的特征。特征是通过模型和标签数据来决定。基于深度学习的行为识别中,网络的设 计尤其重要。
综上所述,现有技术存在的问题是:现有的3维卷积网络存在:网络只能提取子运动状态;视频的每一个小片段都同属于同一个行为类别;现有行为识别网络只能提取子运动状态;视频的每一个小片段都同属于同一个行为类别;每个输入视频片段的尺度和时长都得固定,在这样的限制下,不能够对任意空间尺度和时长视频进行处理;同时网络学习到的是短期运动特征,缺乏完整的行为信息。
发明内容
针对现有技术存在的问题,本发明提供了一种基于3D深度卷积网络的人类行为识别的方法。
本发明是这样实现的,一种基于3D深度卷积网络的人类行为识别的方法,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710697809.8/2.html,转载请声明来源钻瓜专利网。