[发明专利]基于多模态双流3D网络的视频人体行为识别方法及系统在审
| 申请号: | 201910936088.0 | 申请日: | 2019-09-29 |
| 公开(公告)号: | CN110705463A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 马昕;武寒波;宋锐;荣学文;田国会;李贻斌 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 董雪 |
| 地址: | 250061 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 分类结果 动态图 多模态 图序列 建模 双流 姿势 卷积神经网络 人体行为识别 行为识别结果 人体运动 人体姿态 深度视频 时空动态 时空结构 识别性能 数据模态 网络架构 评估 长时 捕捉 清晰 融合 全局 网络 | ||
本发明公开了一种基于多模态双流3D网络的视频人体行为识别方法及系统,包括:基于深度视频生成的深度动态图序列DDIS;基于RGB视频生成的姿势评估图序列PEMS;将深度动态图序列和姿势评估图序列分别输入到3D卷积神经网络中,构造DDIS流和PEMS流,得到各自的分类结果;将得到的分类结果进行融合,得到最终的行为识别结果。本发明有益效果:DDIS通过对视频的局部时空结构信息进行建模,能够很好地描述长时行为视频中的人体运动以及交互物体的轮廓。PEMS能够清晰地捕捉人体姿态的变化,消除背景杂乱的干扰。多模态双流3D网络架构能够有效建模行为视频在不同数据模态下的全局时空动态,具有优越的识别性能。
技术领域
本发明涉及人体行为识别技术领域,尤其涉及一种基于多模态双流3D网络的视频人体行为识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
基于视频的人体行为识别由于其广泛的应用,近年来在计算机视觉领域引起了越来越多的关注,如智能监控、视频检索以及老年人护理等。与图像分类相比,视频行为识别是一项更具挑战性的任务,因为视频具有高维性,连续帧之间的时间结构也可以提供重要的附加信息。因此,时空特征学习对于基于视频的行为识别具有十分重要的意义。空间特征通常用于描述人体和物体的外观以及场景的配置信息,而时间特征主要捕捉行为运动随时间的变化。尽管对于行为识别的研究已经开展了大量的工作,但是如何有效地提取视频中具有辨识力的时空信息以提高行为识别的性能,仍然在被不断的探索。
近年来,由于计算能力的显著提高和大量带注释数据集的可用性,深度神经网络在基于视频的行为识别中获得了广泛的关注,并取得了显著的成功。其中建模视频时空动态常用的三种典型深度网络结构有:双流卷积神经网络(Convolutional NeuralNetworks,CNN)、卷积神经网络(CNN)+循环神经网络(Recurrent Neural Networks,RNN)以及3D卷积神经网络。双流CNN是2D卷积神经网络中最流行的算法框架,其中RGB图像和光流分别被输入到一个空间流网络和一个时间流网络中,以提取用于行为识别的外观和运动信息。尽管双流CNN已经取得了不错的性能,但它不能直接学习行为视频的时间模式。RNN对长时视频的时间依赖性具有很好的建模能力,能够有效解决这一问题。CNN+RNN的结构利用CNN进行空间特征学习,利用RNN进行时间动态建模。然而,上述两种网络架构不能同时捕获视频的空间和时间信息,为了克服这一局限性,3D CNN通过将二维卷积核扩展为三维卷积核,可以同时编码行为视频的时空动态特征。
发明人发现,虽然基于深度学习的行为识别研究已经取得了很大的进展,但它仍然是一个复杂且具有挑战性的研究课题。首先,CNN是纹理驱动的网络结构,它更擅长于描述物体的颜色和纹理特征,而不是人体运动。因此,基于CNN的方法倾向于根据场景和物体来预测行为,这使得它们较容易受到杂乱背景的影响。其次,3D CNN虽然具有同时学习时空特征的显著优势,但通常只应用于RGB视频。RGB数据对颜色和光照变化、遮挡和背景杂乱具有高度的敏感性,此外,仅从RGB视频中很难获得更多的高层次线索,比如人体姿态和身体轮廓信息。
发明内容
为了解决上述问题,本发明提出了一种基于多模态双流3D网络的视频人体行为识别方法及系统,通过设计新的多模态双流3D网络框架,利用不同模态的互补特性来提高行为识别的性能。
在一些实施方式中,采用如下技术方案:
一种基于多模态双流3D网络的视频人体行为识别方法,包括:
基于深度视频生成的深度动态图序列(Depth Dynamic Image Sequence,DDIS);
基于RGB视频生成的姿势评估图序列(Pose Estimation Map Sequence,PEMS);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910936088.0/2.html,转载请声明来源钻瓜专利网。





