[发明专利]一种基于三维卷积和Faster RCNN的视频动作检测方法在审
申请号: | 201810144476.0 | 申请日: | 2018-02-12 |
公开(公告)号: | CN108399380A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 刘波;聂相琴 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动作检测 卷积 三维 视频 候选框 视频流 标注信息 动作开始 动作类别 分类检测 空间位置 时间区域 时间预测 视频时序 特征基础 边界框 数据集 剪辑 修剪 引入 预测 网络 | ||
本发明公开一种基于三维卷积和Faster RCNN的视频动作检测方法,首先引入一个新的模型,其使用三维完全卷积网络对视频流进行编码;随后在生成的特征基础上生成包含动作的候选时间区域,并生成一组候选框;最后不同剪辑的候选框经过分类检测,将视频流中动作类别、视频动作开始和结束时间预测出来;同时预测出动作的空间位置边界框。与现有方法相比,本发明所述方法在未修剪的数据集视频时序动作检测上具有优异的性能,同时可以在缺乏空间标注信息的情况下实现动作定位。
技术领域
本发明属于图像处理技术领域,涉及一种基于三维卷积和Faster RCNN的视频动作检测方法。
背景技术
随着互联网视频媒介的蓬勃发展,近年来视频内容检测与分析引起了工业界和学术界的广泛关注。动作识别是视频内容检测与分析的一个重要分支。在计算机视觉领域,动作识别无论是在手工特征还是深度学习特征等方面都取得了很大的进步。动作识别通常归结为一个分类问题,其中,训练阶段的每个动作实例都是从一个较长视频序列中修剪出来,学习动作模型被用于修剪视频(例如,HMDB51和UCF101)或未修剪视频(例如,THUMOS14和ActivityNet)中的动作识别。然而,现实世界中的大多数视频是不受限制的,可能包含多个具有不相关背景场景活动的动作实例。针对该问题学术界开始逐渐关注另一个具有挑战性的识别方法-时序动作检测。该方法旨在检测未修剪视频中的动作实例,包括时间边界和实例类别。该方法在监控视频分析和智能家居护理等领域具有广阔前景。
自从2012年将卷积神经网络(CNN)运用于图像分类的重大突破以来,众多研究工作围绕在设计有效的深层网络架构运用于视频中的动作检测。Gaidon等人先后在2011年的IEEE Conference on Computer Vision and Pattern Recognition(CVPR)和2013年的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上发表的“Actom sequence models for efficient action detection”和“Temporallocalization of actions with actoms”,介绍了在未修剪的视频中定位动作的问题,然而行为动作比较有限,如“喝酒吸烟”和“开门静坐”。Escorcia等人于2016年在EuropeanConference on Computer Vision(ECCV)上发表的“Daps:Deep action proposals foraction understanding”,建立了基于长短期记忆(LSTM)的时间动作候选框系统。Yeung等人于2015年在arXiv preprint(arXiv:1507.05738)上发表的“Every moment counts:Dense detailed labeling of actions in complex videos”,为THUMOS视频中的每个帧引入了多标签注释的MultiTHUMOS数据集,并定义了一个LSTM网络来模拟多个输入和输出连接。Yuan等人于2016年在IEEE Conference on Computer Vision and PatternRecognition(CVPR)上发表的“Temporal action localization with pyramid of scoredistribution features”,基于滑动窗口中心提出了一个分数分布特征的金字塔,以捕获多个分辨率的运动信息,并利用RNN提高了帧之间的一致性。Sun等人于2015年在ACMInternational Conference on Multimedia(ACM MM)上发表了“Temporal localizationof fine-grained actions in videos by domain transfer from web images”,研究了当仅有视频级注释可用时,利用网页图像来训练LSTM模型。此外,Lea等人于2016年在IEEEConference on Computer Vision and Pattern Recognition(ECCV)上发表了“Segmentalspatiotemporal cnns for fine-grained action segmentation”,在训练模型时使用了一维卷积来捕捉场景变化。虽然RNN和时间1D卷积可以对帧之间的时间依赖性进行建模并进行帧级预测,但它们通常位于深层ConvNets之上,该ConvNets采用单个帧作为输入,而不是直接建模原始视频中的时空特征。Shou等人于2016年在European Conference onComputer Vision(ECCV)上发表的“Temporal action localization in untrimmedvideos via multi-stage cnns”,提出了一种基于端到端的基于段的3D CNN框架(S-CNN),该框架捕获时空信息的方式优于其他基于RNN的方法。然而,S-CNN缺乏在精细的时间分辨率下进行预测并将动作实例的精确时间边界定位的能力。同时由于当前的未修剪数据集缺乏空间标注信息,因而目前的未修剪数据集很难做到在定位动作时间边界的时候同步定位出该动作的空间边界框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810144476.0/2.html,转载请声明来源钻瓜专利网。