[发明专利]一种基于时序移位的自纠错人类行为识别方法有效
| 申请号: | 202010529683.5 | 申请日: | 2020-06-11 |
| 公开(公告)号: | CN111860148B | 公开(公告)日: | 2022-08-26 |
| 发明(设计)人: | 张伟;龚依申;陈云芳 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V30/19;G06V10/80 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 曹坤 |
| 地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时序 移位 纠错 人类 行为 识别 方法 | ||
本发明涉及一种基于时序移位的自纠错人类行为识别方法,属于计算机视觉技术领域;具体步骤包括:(1)、将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将其组成行为识别网络的输入;(2)、对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作;(3)、使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,给出最终的行为预测结果;(4)、针对行为预测结果,对预测结果进行优化调整。本发明去除视频中一部分冗余信息,显著减少了计算量,使不同时间的特征发生相互作用,高效地捕捉到了时序特征;并能针对行为预测结果进行优化调整,提高预测准确率。
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于时序移位的自纠错人类行为识别方法。
背景技术
基于视频的人类行为识别一直是计算机视觉领域中极具挑战的问题之一。行为识别在现实生活中的多个方面均有重要的应用价值,如视频理解、安防领域、自动驾驶和人机交互等。随着近年来大规模视频数据的出现,传统的通过人工对视频进行人类行为分析和识别,准确率低,处理速度慢,已无法满足视频实时分析的需求,因此,准确且高效的视频行为分析方法显得至关重要。
目前现有的深度学习行为识别方法,包括2D卷积神经网络模型(2D CNN)和3D卷积网络模型(3D CNN)。直接使用2D CNN进行视频行为识别时,其参数量小,计算成本低,但存在的问题是,视频中相邻帧之间相似度高,存在大量冗余;2D CNN仅仅对单帧的图片进行空间特征的提取,无法提取视频中的时序特征,准确度较低。而使用3D CNN可以同时提取视频中的空间特征和时序特征,准确度较高,但是较2D CNN而言,参数量大,计算成本高,难以部署在算力受限的嵌入式设备上。
发明内容
针对上述问题,本发明提供了一种基于时序移位的自纠错人类行为识别方法,使用2DCNN,本发明在不添加参数量的前提下,可以融合视频中的时序特征,实现高效且准确的视频行为识别。
本发明的技术方案是:一种基于时序移位的自纠错人类行为识别方法,操作步骤具体如下:
步骤(1.1),将视频帧等分为若干部分,每部分随机选取一帧RGB图像,将选取的RGB图像组成行为识别网络的输入;
步骤(1.2),对选取的RGB图像分别进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,并进行移位操作,融合不同时间的特征;
步骤(1.3),使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射,通过分类器给出最终的行为预测结果;
步骤(1.4),针对所述行为预测结果,依据动作状态变化合理性,对预测结果进行优化调整。
进一步的,所述步骤(1.1)中将RGB图像组成行为识别网络的输入的具体方法:
利用ffmpeg将视频转换为图片帧,并进行等分,记为S1,S2,S3…Sn;采取稀疏采样策略,分别对所述视频帧等分后的每个部分,从中随机抽取一帧图片,记为F1,F2,F3…Fn,组成行为识别网络的输入,记为(F1,F2,F3…Fn)。
进一步的,所述步骤(1.2)的具体操作步骤如下:
步骤(1.2.1)、将所述行为识别网络的输入(F1,F2,F3…Fn),进行一次2D卷积运算,生成每帧RGB图像对应的特征映射,记为式(1):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010529683.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自适应控制风量的散热装置及其控制方法
- 下一篇:图分类方法和装置





