[发明专利]视频分类模型构建、视频分类的方法、装置、设备及介质有效
| 申请号: | 201911134005.2 | 申请日: | 2019-11-19 |
| 公开(公告)号: | CN110929780B | 公开(公告)日: | 2023-07-11 |
| 发明(设计)人: | 陈楚城;王瑞琛;王晓利 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 分类 模型 构建 方法 装置 设备 介质 | ||
本申请公开了一种视频分类模型构建、视频分类的方法、装置、设备及介质。该方法包括:获取训练集数据,训练集数据包括多帧视频帧;将训练集数据输入待训练分类模型,待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;通过非局部模块提取多帧视频帧的长距离依赖特征,长距离依赖特征用于表示多帧视频帧所包含的空间位置之间的关联关系;将长距离依赖特征输出到输出层组,输出多帧视频帧的预测分类结果;通过预设的预测损失函数对待训练分类模型进行训练,直至待训练分类模型中的参数收敛,得到视频分类模型。根据本申请实施例提供的技术方案,该方法提高了视频分类的准确性。
技术领域
本申请一般涉及数据处理技术领域,具体涉及视频数据处理技术领域,尤其涉及视频分类模型构建、视频分类的方法、装置、设备及介质。
背景技术
目前,在使用三维卷积神经网络对视频进行分类时,一般通过在卷积神经网络中的设置多个卷积层,该卷积层获取待分类视频的每帧视频帧中的特征,得到特征图;然后基于特征图对视频进行分类。
由上述描述可知,现有技术在获取特征图时,是基于视频帧中每帧图像的各像素周围的信息得到的,因此限制了特征图内容信息的丰富性,导致分类不够准确。
发明内容
鉴于现有技术不能对视频进行准确分类的问题,本申请提出了视频分类模型构建、分类方法、装置、设备及介质,构建的视频分类模型能够提高视频分类的准确性。
第一方面,本申请实施例提供了一种视频分类模型构建的方法,该方法包括:
获取训练集数据,训练集数据包括多帧视频帧;
将训练集数据输入待训练分类模型,待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;
通过非局部模块提取多帧视频帧的长距离依赖特征,长距离依赖特征用于表示多帧视频帧所包含的空间位置之间的关联关系;
将长距离依赖特征输出到输出层组,输出多帧视频帧的预测分类结果;
通过预设的预测损失函数对待训练分类模型进行训练,直至待训练分类模型中的参数收敛,得到视频分类模型。
第二方面,本申请实施例提供了一种视频分类方法,该方法包括:
获取待分类的视频;
按照预设时间位置从视频中获取多帧视频帧;
将多帧视频帧输入至预先训练得到的视频分类模型,输出多帧视频帧的至少一个分类标签;视频分类模型通过上述第一方面的视频分类模型的训练方法训练得到;
根据多帧视频帧的至少一个分类标签标识视频的类别。
第三方面,本申请实施例提供了一种视频分类模型构建的装置,该装置包括:
第一获取模块,用于获取训练集数据,训练集数据包括多帧视频帧;
输入模块,用于将训练集数据输入待训练分类模型,待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;
提取模块,用于通过非局部模块提取多帧视频帧的长距离依赖特征,长距离依赖特征用于表示多帧视频帧所包含的空间位置之间的关联关系;
输出模块,用于将长距离依赖特征输出到输出层组,输出多帧视频帧的预测分类结果;
训练模块,用于通过预设的预测损失函数对待训练分类模型进行训练,直至待训练分类模型中的参数收敛,得到视频分类模型。
第四方面,本申请实施例提供了一种视频分类装置,该装置包括:
第二获取模块,用于获取待分类的视频;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911134005.2/2.html,转载请声明来源钻瓜专利网。





