[发明专利]一种基于关键帧提取和层次性表述的视频行为识别方法在审
| 申请号: | 201911011339.0 | 申请日: | 2019-10-23 |
| 公开(公告)号: | CN110796058A | 公开(公告)日: | 2020-02-14 |
| 发明(设计)人: | 李楠楠;张世雄;赵翼飞;李若尘;李革;安欣赏;张伟民 | 申请(专利权)人: | 深圳龙岗智能视听研究院 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 11440 北京京万通知识产权代理有限公司 | 代理人: | 万学堂;魏振华 |
| 地址: | 518172 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 行为分类 关键帧特征 循环神经网络 关键帧提取 层次特征 神经网络 时域卷积 实时运算 视频输入 现实场景 行为识别 应用需求 原始视频 运动信息 层次性 结构化 滑动 抽取 送入 抽象 输出 | ||
1.一种基于关键帧提取和层次性表述的视频行为识别方法,其特征在于,包括:
步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;
步骤2)将所述关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及
步骤3)进行视频行为分类。
2.根据权利要求1所述的视频行为识别方法,其特征在于,所述步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
3.根据权利要求1所述的视频行为识别方法,其特征在于,所述循环神经网络包含图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,所述输入图像经过所述图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk。
4.根据权利要求1所述的视频行为识别方法,其特征在于,在所述步骤2)中,将从步骤1)提取的所述关键帧特征输入到所述时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
其中,为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,为第i个卷积核。
5.根据权利要求1所述的视频行为识别方法,其特征在于,在所述步骤3)中,将所述步骤2)所得的所述整段视频的所述表述特征送入到行为分类层进行运算,最后输出行为类别预测结果,其中,所述行为分类层包括2个512*512的全连接层。
6.一种基于关键帧提取和层次性表述的视频行为识别设备,其特征在于,包括中层关键帧提取模块和高层视频表述模块,其中,
中层关键帧提取模块,用于从整段视频提取关键帧特征;以及
高层视频表述模块,用于将所述关键帧特征送入时域卷积神经网络,提取整段视频的表述特征。
7.根据权利要求1所述的视频行为识别设备,其特征在于,所述中层关键帧提取模块用于,通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
8.根据权利要求7所述的视频行为识别设备,其特征在于,所述循环神经网络包括图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,所述输入图像经过所述图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk。
9.根据权利要求1所述的视频行为识别设备,其特征在于,高层视频表述模块,用于将提取的所述关键帧特征输入到所述时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
其中,为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,为第i个卷积核。
10.根据权利要求1所述的视频行为识别设备,其特征在于,还包括行为分类层,用于进行视频行为分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院,未经深圳龙岗智能视听研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911011339.0/1.html,转载请声明来源钻瓜专利网。





