[发明专利]一种基于关键帧提取和层次性表述的视频行为识别方法在审
| 申请号: | 201911011339.0 | 申请日: | 2019-10-23 |
| 公开(公告)号: | CN110796058A | 公开(公告)日: | 2020-02-14 |
| 发明(设计)人: | 李楠楠;张世雄;赵翼飞;李若尘;李革;安欣赏;张伟民 | 申请(专利权)人: | 深圳龙岗智能视听研究院 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
| 代理公司: | 11440 北京京万通知识产权代理有限公司 | 代理人: | 万学堂;魏振华 |
| 地址: | 518172 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 行为分类 关键帧特征 循环神经网络 关键帧提取 层次特征 神经网络 时域卷积 实时运算 视频输入 现实场景 行为识别 应用需求 原始视频 运动信息 层次性 结构化 滑动 抽取 送入 抽象 输出 | ||
一种基于关键帧提取和层次性表述的视频行为识别方法,包括:步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;步骤2)将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及步骤3)进行视频行为分类。该方法通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述,在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述;能够满足现实场景下某些对实时运算要求较高的应用需求。
技术领域
本发明涉及视频行为分析技术领域,具体涉及到一种基于关键帧提取和层次性表述的视频行为识别方法。
背景技术
随着自媒体时代的到来,互联网上每天都有用户上传海量的视频。以YouTube为例,每分钟全球用户上传的视频量约为500小时。这里面有大量的视频内容是不健康的,比如:犯罪、色情等。用人工检索的方式对这些海量的数据进行查看和监管是一项耗时费力的工作。近年来,一些专家学者尝试使用计算机视觉的方法对视频内容进行自动地识别,且取得了一些不错的进展。总体来看,这些方法多是依赖光流特征来刻画运动信息,并且使用随机抽样地方式来处理较长的视频。这样做会带来两个明显的缺陷:1.光流计算需要大量的运算资源,而且一般都是预先离线处理,这样限制了算法在现实场景下的实时运行;2.对较长的视频进行随机抽取可能会漏掉一些关键的信息,而且在很多情况下视频内容是结构化分布的,仅对随机抽取到的某一段内容进行分析无法得到可靠的分类预测。例如:跳高和跳远两项体育运动,两者的前半段都是助跑,如果随机抽取的内容只包含前半段信息是无法区分两者的。
发明内容
本发明的目的是提供一种基于关键帧提取和层次性表述的视频行为识别方法,通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述,在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述;能够满足现实场景下某些对实时运算要求较高的应用需求。
本发明的技术方案:
根据本发明的一个方面,提供了一种基于关键帧提取和层次性表述的视频行为识别方法,包括:步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;步骤2)将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及步骤3)进行视频行为分类。
优选地,在上述视频行为识别方法中,步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
优选地,在上述视频行为识别方法中,循环神经网络包含图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,输入图像经过图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk。
优选地,在上述视频行为识别方法中,在步骤2)中,将从步骤1)提取的关键帧特征输入到时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
其中,为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,为第i个卷积核。
优选地,在上述视频行为识别方法中,在步骤3)中,将步骤2)所得的整段视频的表述特征送入到行为分类层进行运算,最后输出行为类别预测结果,其中,行为分类层包括2个512*512的全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院,未经深圳龙岗智能视听研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911011339.0/2.html,转载请声明来源钻瓜专利网。





