[发明专利]训练及视频分析方法和装置、电子设备、存储介质、程序在审
| 申请号: | 201710530371.4 | 申请日: | 2017-06-29 |
| 公开(公告)号: | CN108229527A | 公开(公告)日: | 2018-06-29 |
| 发明(设计)人: | 汤晓鸥;黄青虬;熊宇;熊元骏;林达华 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
| 地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 视觉特征 视频分析 标签 方法和装置 存储介质 电子设备 视频类型 视频预测 视频 视频标注 网络包括 网络获取 网络 分析 | ||
本发明实施例公开了一种训练及视频分析方法和装置、电子设备、存储介质、程序,其中,所述视频分析网络包括视觉特征网络,训练方法包括:针对至少一个样本视频分别对应的至少一个样本片段中的任一样本片段,利用视觉特征网络获取所述任一样本片段的视觉特征,所述样本视频标注有视频类型标签;根据所述视觉特征获取所述样本片段的视频预测标签;根据所述样本片段的视频预测标签和所述视频类型标签,对所述视觉特征网络进行训练。本发明实施例可以实现对长视频的分析。
技术领域
本发明涉及计算机视觉技术,尤其是一种训练及视频分析方法和装置、电子设备、存储介质、程序。
背景技术
世界上每年都有大量的电影产生,电影不仅仅是一种娱乐方式,本质上是对人类世界现实生活的戏剧化展示,其通过丰富的媒体反映了人类的文化、社会、历史。人工智能如果能够理解电影,也就能更好的理解现实世界。因此,对于电影这种时长长、信息量大的视频的分析,是计算机视觉领域中一件非常有意义的事情。
发明内容
本发明实施例提供一种用于进行视频分析的技术方案。
根据本发明实施例的一个方面,提供的一种视频分析网络的训练方法,所述视频分析网络包括视觉特征网络,所述方法包括:
针对至少一个样本视频分别对应的至少一个样本片段中的任一样本片段,利用视觉特征网络获取所述任一样本片段的视觉特征,所述样本视频标注有视频类型标签;
根据所述视觉特征获取所述样本片段的视频预测标签;
根据所述样本片段的视频预测标签和所述视频类型标签,对所述视觉特征网络进行训练。
可选地,在本发明上述各训练方法实施例中,所述利用视觉特征网络获取所述任一样本片段的视觉特征之前,还包括:
从所述任一样本片段中选取M个镜头片段,以及分别从所述M个镜头片段中的任一镜头片段中选取N帧图像;其中,M、N分别为大于0的整数;所述样本片段包括所述样本视频中的至少一个镜头片段,每个镜头片段包括至少一帧图像;
所述利用视觉特征网络获取所述任一样本片段的视觉特征,包括:利用视觉特征网络,分别针对所述M个镜头片段中任一镜头片段,分别提取所述任一镜头片段中所述N帧图像的视觉特征。
可选地,在本发明上述各训练方法实施例中,根据所述视觉特征获取所述样本片段的视频预测标签,包括:
根据所述M个镜头片段中分别选取的N帧图像的视觉特征,获取所述样本片段的视频预测标签。
可选地,在本发明上述各训练方法实施例中,所述样本片段包括:所述样本视频对应的视频预告片段,或从所述样本视频中剪辑获得的视频片段。
可选地,在本发明上述各训练方法实施例中,M、N的取值分别为大于或者等于2的整数。
可选地,在本发明上述各训练方法实施例中,M的取值为8,N的取值为3。
可选地,在本发明上述各训练方法实施例中,根据所述M个镜头片段中分别选取的N帧图像的视觉特征,获取所述样本片段的视频预测标签,包括:
分别针对所述任一镜头片段,分别基于所述N帧图像的视觉特征确定所述N帧图像的类型标签;
分别基于所述任一镜头片段中所述N帧图像的类型标签确定所述任一镜头片段的类型标签;
基于所述M个镜头片段的类型标签确定所述样本片段的标签类型作为视频预测标签。
可选地,在本发明上述各训练方法实施例中,所述视频分析网络还包括时序结构网络;
所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710530371.4/2.html,转载请声明来源钻瓜专利网。





