[发明专利]一种基于时序移位的自纠错人类行为识别方法有效

申请号：	202010529683.5	申请日：	2020-06-11
公开（公告）号：	CN111860148B	公开（公告）日：	2022-08-26
发明（设计）人：	张伟;龚依申;陈云芳	申请（专利权）人：	南京邮电大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V40/20;G06V30/19;G06V10/80
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	曹坤
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时序移位纠错人类行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于时序移位的自纠错人类行为识别方法，属于计算机视觉技术领域；具体步骤包括：(1)、将视频帧等分为若干部分，每部分随机选取一帧RGB图像，将其组成行为识别网络的输入；(2)、对选取的RGB图像分别进行一次2D卷积运算，生成每帧RGB图像对应的特征映射，并进行移位操作；(3)、使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射，给出最终的行为预测结果；(4)、针对行为预测结果，对预测结果进行优化调整。本发明去除视频中一部分冗余信息，显著减少了计算量，使不同时间的特征发生相互作用，高效地捕捉到了时序特征；并能针对行为预测结果进行优化调整，提高预测准确率。

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于时序移位的自纠错人类行为识别方法。

背景技术

基于视频的人类行为识别一直是计算机视觉领域中极具挑战的问题之一。行为识别在现实生活中的多个方面均有重要的应用价值，如视频理解、安防领域、自动驾驶和人机交互等。随着近年来大规模视频数据的出现，传统的通过人工对视频进行人类行为分析和识别，准确率低，处理速度慢，已无法满足视频实时分析的需求，因此，准确且高效的视频行为分析方法显得至关重要。

目前现有的深度学习行为识别方法，包括2D卷积神经网络模型(2D CNN)和3D卷积网络模型(3D CNN)。直接使用2D CNN进行视频行为识别时，其参数量小，计算成本低，但存在的问题是，视频中相邻帧之间相似度高，存在大量冗余；2D CNN仅仅对单帧的图片进行空间特征的提取，无法提取视频中的时序特征，准确度较低。而使用3D CNN可以同时提取视频中的空间特征和时序特征，准确度较高，但是较2D CNN而言，参数量大，计算成本高，难以部署在算力受限的嵌入式设备上。

发明内容

针对上述问题，本发明提供了一种基于时序移位的自纠错人类行为识别方法，使用2DCNN，本发明在不添加参数量的前提下，可以融合视频中的时序特征，实现高效且准确的视频行为识别。

本发明的技术方案是：一种基于时序移位的自纠错人类行为识别方法，操作步骤具体如下：

步骤(1.1)，将视频帧等分为若干部分，每部分随机选取一帧RGB图像，将选取的RGB图像组成行为识别网络的输入；

步骤(1.2)，对选取的RGB图像分别进行一次2D卷积运算，生成每帧RGB图像对应的特征映射，并进行移位操作，融合不同时间的特征；

步骤(1.3)，使用行为识别网络分别处理所述融合不同时间特征的每帧RGB图像对应的特征映射，通过分类器给出最终的行为预测结果；

步骤(1.4)，针对所述行为预测结果，依据动作状态变化合理性，对预测结果进行优化调整。

进一步的，所述步骤(1.1)中将RGB图像组成行为识别网络的输入的具体方法：

利用ffmpeg将视频转换为图片帧，并进行等分，记为S₁,S₂,S₃…S_n；采取稀疏采样策略，分别对所述视频帧等分后的每个部分，从中随机抽取一帧图片，记为F₁,F₂,F₃…F_n，组成行为识别网络的输入，记为(F₁,F₂,F₃…F_n)。