[发明专利]视频处理方法和装置在审
申请号: | 202010906983.0 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112000842A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 高永强 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06K9/62;G06N3/02;G06N3/08 |
代理公司: | 北京海智友知识产权代理事务所(普通合伙) 11455 | 代理人: | 吴京顺 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 处理 方法 装置 | ||
1.一种视频处理方法,包括:
获取待分类视频;
确定所述待分类视频包括的所有预设时长片段的预设分类信息;
根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果。
2.根据权利要求1所述的方法,其中,所述确定所述待分类视频包括的所有预设时长片段的预设分类信息,包括:
对所述待分类视频进行分割,获取所述待分类视频的所有预设时长片段,基于对预设时长片段的内容理解,确定预设时长片段的预设分类信息。
3.根据权利要求1所述的方法,其中,所述确定所述待分类视频包括的所有预设时长片段的预设分类信息,包括:
将所述待分类视频输入预先训练的视频分类模型,针对于所述待分类视频包括的所有预设时长片段中的每个预设时长片段,通过所述视频分类模型中的目标全连接层得到表征该预设时长片段的预设分类信息的特征向量;以及
所述根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果,包括:
根据所述待分类视频包括的每个预设时长片段对应的特征向量,通过所述视频分类模型中连接所述目标全连接层的柔性最大化层确定所述待分类视频的分类结果,其中,所述视频分类模型用于表征待分类视频与分类结果之间的对应关系。
4.根据权利要求3所述的方法,其中,所述根据所述待分类视频包括的每个预设时长片段对应的特征向量,通过所述视频分类模型中连接所述目标全连接层的柔性最大化层确定所述待分类视频的分类结果,包括:
针对于所述待分类视频包括的每个预设时长片段对应的特征向量,进行最大池化;
将进行最大池化后的每个特征向量输入所述柔性最大化层,确定所述待分类视频的分类结果。
5.根据权利要求1所述的方法,其中,所述视频分类模型是以残差神经网络为主干网络的时间转移模型。
6.根据权利要求1所述的方法,其中,所述视频分类模型通过如下方式训练得到:
获取训练样本集,其中,所述训练样本集中的训练样本包括样本视频、样本视频包括的所有样本视频片段的预设分类信息以及样本视频的分类结果;
采用机器学习算法,以训练样本中的样本视频作为初始视频分类模型的输入,以输入的样本视频包括的所有样本视频片段中的每个样本视频片段的预设分类信息,依次作为初始视频分类模型中的目标全连接层的期望输出,以输入的样本视频的分类结果作为初始视频分类模型中连接所述目标全连接层的柔性最大化层的期望输出,训练得到所述视频分类模型。
7.根据权利要求6所述的方法,其中,所述视频分类模型采用对称交叉熵函数,其中,所述对称交叉熵函数通过交叉熵函数和反向交叉熵函数得到。
8.根据权利要求1-7任一所述的方法,其中,所述待分类视频的分类结果包括所述待分类视频属于各预设分类信息的概率,以及各预设分类信息所对应的预设时长片段的数量。
9.一种视频处理装置,包括:
获取单元,被配置成获取待分类视频;
确定单元,被配置成确定所述待分类视频包括的所有预设时长片段的预设分类信息;
分类单元,被配置成根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果。
10.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010906983.0/1.html,转载请声明来源钻瓜专利网。