[发明专利]一种基于分层动力解析与编码的视频动作分类系统及方法在审
申请号: | 201810271460.6 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108960031A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 苏冰;丁晓青;吴郢;周嘉欢;吕品;徐帆江 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分层 池化 解析 特征提取模块 编码模块 编码序列 动作分类 分类模块 解析模块 特征序列 整体表达 状态序列 低维 排序 支持向量机 时序 编码结构 视频表示 第一层 图像帧 无监督 聚类 两层 维数 分类 | ||
本发明涉及一种基于分层动力解析与编码的视频动作分类系统及方法,包括表观特征提取模块、动力解析模块、分层动力编码模块以及分类模块;表观特征提取模块从视频的每一帧或每相邻的几帧中提取表观特征,将视频表示成一个表观特征序列或低维状态序列;动力解析模块对表观特征序列或低维状态序列进行时序聚类,用无监督方式将序列分成若干个阶段,得到阶段解析路径;分层动力编码模块,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到编码序列;在第二层中使用排序池化对编码序列再次进行编码,获得具有固定维数的视频整体表达;分类模块使用支持向量机(SVM)对视频整体表达进行分类。
技术领域
本发明属于视频分类技术领域,具体涉及一种基于分层动力解析与编码的视频动作分类系统及方法。
背景技术
视频动作分类的目标是识别出视频中的主体正在执行的动作,在视频安防监控、生物特征识别、行为分析等应用中具有重要作用,因此在计算机视觉领域中受到广泛关注。表观和动力是视频动作的两个重要方面,现有的视频动作分类方法主要可以分为两类:基于表观的方法和基于动力的方法。
基于表观的视频动作表达方法包括人工提取的表观特征表达和从数据中学习的表观特征表达。改进的密集轨迹(improved dense trajectories)【1】是最常用的人工提取的表观表达,该方法首先从视频中提取轨迹特征、HOG、HOF和MBH等局部描述子,然后再用词袋模型、Fisher向量或局部聚集描述符向量【文献2】对这些描述子进行编码,既可以将每一帧中的描述子分别编码得到每一帧的表观表达,也可以对所有帧的描述子统一编码得到整个视频的表观表达。从数据中学习的表观表达通常使用预训练的卷积3D神经网络(C3D)【文献3】,用滑动窗的方法从视频中获取一系列帧级表观特征。
基于动力的视频动作表达方法使用鉴别式或产生式模型对视频动作的动力或运动进行建模,这些模型包括动态时间规整【文献4】、线性动力系统【文献5】、基于光流的深度卷积神经网络【文献6】、回归神经网络【文献7】等。排序池化(rank pooling)【文献8】通过排序学习的方法将一系列有序的帧级表观特征进行池化,将视频动作的动力融入具有固定维数的视频整体表达中。
基于表观的视频动作分类方法没有考虑视频的动力和视频中图像帧之间的时序依赖关系,而动力和时序关系是区分某些动作(比如“起立”和“坐下”)的关键。现有的基于动力的视频动作表达方法或者需要利用复杂的动态模型对视频进行分类,这需要大量训练视频作为监督数据,或者没有考虑动力的时变性质,将不同类型的动力变换不加区分地进行编码,这可能会隐藏视频的关键动力进展,导致对噪声和时序畸变敏感。
【文献1】H.Wang and C.Schmid.Action recognition with improvedtrajectories.In Proceedings of IEEE International Conference on ComputerVision,pages 3551–3558,2013.
【文献2】M.Jain,H.Jégou,and P.Bouthemy,“Better exploiting motion forbetter action recognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,Jun.2013,pp.2555–2562.
【文献3】D.Tran,L.Bourdev,R.Fergus,L.Torresani,and M.Paluri,“Learningspatiotemporal features with 3D convolutional networks,”in Proc.IEEEInt.Conf.Comput.Vis.,Dec.2015,pp.4489–4497.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271460.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像处理式开启操作方法
- 下一篇:一种三稳态逻辑随机共振方法