[发明专利]视频分类方法、装置、计算机可读存储介质和电子设备有效
申请号: | 201711064631.X | 申请日: | 2017-11-02 |
公开(公告)号: | CN108229300B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 孙书洋;旷章辉;张伟 | 申请(专利权)人: | 深圳市商汤科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/246;G06T7/269 |
代理公司: | 北京康达联禾知识产权代理事务所(普通合伙) 11461 | 代理人: | 纪烈超;刘洁 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分类 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本发明实施例提供一种视频分类方法、装置、计算机可读存储介质和电子设备。视频分类方法,包括:获取第一视频帧中目标对象的帧内动作分类数据,所述第一视频帧为视频帧序列中含有目标对象的视频帧;根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据,获取所述第一视频帧中所述目标对象的帧间动作分类数据;所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧;根据所述帧内动作分类数据和所述帧间动作分类数据,确定所述目标对象的动作分类。由此能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合,更为准确地从视频检测到动作分类。
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种视频分类方法、装置、计算机可读存储介质和电子设备。
背景技术
用于视频分类的模型建立是计算机视觉以及智能视频分析领域的重要问题。在诸如视频自动标记、视频行为识别监控、人群行为分析以及异常行为检测等应用中,均使用视频分类技术。
视频分类涉及从视频序列检测运动信息。在传统的运动检测技术中,可通过提取稠密光流、RGB差值图等方法来获取视频的运动信息。但是,对于提取稠密光流来说,由于光流的计算速度很慢,通过该方法对大规模数据集进行训练,对于实时性有要求的场景来说是不现实的。另一方面,使用RGB差值图的方法具有较快的计算速度,但是RGB差值图包含的运动信息相对有限,并且在这些有限的信息内还会包含大量的无关噪声。因此,目前使用RGB差值图进行视频分类预测的效果也不理想。
发明内容
本发明实施例的目的在于,提供一种视频分类技术。
根据本发明的第一方面,提供一种视频分类方法,包括:获取第一视频帧中目标对象的帧内动作分类数据,所述第一视频帧为视频帧序列中含有目标对象的视频帧;根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据,获取所述第一视频帧中所述目标对象的帧间动作分类数据;所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧;根据所述帧内动作分类数据和所述帧间动作分类数据,确定所述目标对象的动作分类。
可选地,所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据,获取所述第一视频帧中所述目标对象的帧间动作分类数据,包括:针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据,进行以下处理:根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据,获取所述当前尺度的单尺度运动特征数据;将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合,获取所述当前尺度的尺度融合运动特征数据;根据所述当前尺度的尺度融合运动特征数据,获取对应于当前尺度的帧间动作分类数据。
可选地,所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据。相应地,所述根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据,获取所述当前尺度的单尺度运动特征数据,包括:对从所述第一视频帧提取的所述特征数据进行卷积降维,对从所述第二视频帧提取的所述特征数据进行卷积降维;将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减,获取特征时间梯度数据;通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。
可选地,所述当前尺度的值小于所述当前尺度的前一尺度的值。
可选地,所述方法还包括:通过用于特征提取的第一神经网络模型,从所述第一视频帧提取至少一个尺度的特征数据,并且从所述第二视频帧提取相应尺度的特征数据。
可选地,所述获取所述第一视频帧中所述目标对象的帧内动作分类数据,包括:通过所述第一神经网络模型,根据所述第一视频帧的至少一个尺度的特征数据,获取所述第一视频帧中所述目标对象的帧内动作分类数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市商汤科技有限公司,未经深圳市商汤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711064631.X/2.html,转载请声明来源钻瓜专利网。