[发明专利]一种基于双流协同网络的视频动作分类识别方法有效
| 申请号: | 201911228675.0 | 申请日: | 2019-12-04 |
| 公开(公告)号: | CN111079594B | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 徐行;张静然;沈复民;贾可;申恒涛 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/774 |
| 代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
| 地址: | 610000 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双流 协同 网络 视频 动作 分类 识别 方法 | ||
本发明为一种基于双流协同网络的视频类别识别方法,首先让异构的空域特征和时域特征进行信息交互;所述信息交互将异构的时域特征和空域特征进行融合,从融合的时空域特征中提取出时域和空域互补的部分,并将互补的部分融合进原本提取出的时域特征后空域特征中,融合后互补部分后的所有时域特征后空域特征分别构成空域序列特征后时域序列特征;然后对空域序列特征和时域序列特征进行序列特征聚合,得到聚合后的空域特征和聚合后的时域特征;最后预训练一个分类器模型用于对待识别视频进行测试分类。通过本发明可以实现不同流入模态信息的流动互补,从而达到更加精准的动作识别效果。
技术领域
本发明属于视频动作分类识别技术领域,具体地说,涉及一种基于双流协同网络的视频动作分类识别方法。
背景技术
由于智能手机、公共监控、便携相机等设备的普及,短视频数据由于其易获取性而快速增长。基于短视频的动作识别不仅有重要学术价值,而且可以为智能安防、用户推荐等商业应用提供帮助。双流网络一直是动作识别领域采用最广泛且效果最好的框架,但现在大多数基于双流网络的动作识别解决方案都重点关注在如何设计结构融合不同流特征,而且不同流网络采用单独的方式训练,无法做到端到端的推理。
视频动作类别识别的目标是识别出在视频在发生的动作的类别,现有的基于双流的动作类别识别方法主要是以以下方式进行:
(1)、空域特征提取流:从输入的RGB视频帧中以卷积网络提取空域特征,现有方法中2D和3D的卷积网络都有使用,这一分支以提取视频中形态类信息为后面融合提供基础为目的;
(2)、时域特征提取流:从输入的预先提取的光流场中以卷积网络提取空域特征,也可以使用2D和3D的卷积网络来作为基础结构网络,这一分支以提取视频中运动类信息后后面融合提供基础为目的。
现有的基于双流的视频动作的类别识别方法大多基于在以上结构的后端尝试特征的融合,都必须先分开提取两个分支流的特征,然后再改进融合方式,这样存在以下不足:
(1)、两种异构的输入流中表征同一模式的信息被分开处理,实际上两者之间是有互补信息在网络的前端没有被协同处理,导致可能丢失一些有助于动作识别的关键特征;
(2)、不能端到端的进行推理学习,必须分开处理两个分支,且无法保证异构的特征提取流中信息的相互流动,来保持特征的判别性。
发明内容
本发明基于解决现有技术中可能丢失一些关键技术,且视频帧和光流场分开处理,信息不流动,无法进行端到端的处理的问题,提出了一种基于双流协同网络的视频动作分类识别方法,通过构建一个连接单元让异构的空域特征和时域特征进行交互,实现了双流的信息互补和信息的相互流动,同时可以实现端到端的推理学习。
本发明具体内容如下:
一种基于双流协同网络的视频动作分类识别方法,首先通过卷积网络同时从视频光流场中提取时域序列特征Xo、视频帧中提取空域序列特征Xf;再构造一个连接单元让异构的时域序列特征Xo和空域序列特征Xf进行信息交互;然后构造一个共享单元对交互后的时域序列特征x′jo和交互后的空域序列特征x′if分别进行序列特征聚合,得到聚合后的时域特征Zo和聚合后的空域特征Zf;
所述信息交互具体包括以下步骤:
步骤一:将从视频光流场中提取出的时域序列特征Xo和从视频帧中提取出的空域序列特征Xf进行融合得到时空域序列特征的异构相关性矩阵Y;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911228675.0/2.html,转载请声明来源钻瓜专利网。





