[发明专利]一种基于一维序列学习的视频概括方法有效
申请号: | 201710888621.1 | 申请日: | 2017-09-27 |
公开(公告)号: | CN107729821B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 黄思羽;李玺;张仲非 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 张宇娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 学习 视频 概括 方法 | ||
本发明公开了一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤:获取用于训练视频概括模型的视频数据集,并定义算法目标;对视频数据集中的时空语义结构进行序列特征建模;基于视频序列特征建立逐帧分数预测模型;使用所述预测模型预测输入视频中的关键片段。本发明适用于真实视频场景中的视频概括,面对各类复杂情况具有较佳的效果和鲁棒性。
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于一维序列学习的视频概括方法。
背景技术
21世纪初以来,随着视频数据的海量增长,自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务,其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准,其挑战性在于如何建模复杂和多层次的时间维度的语义结构。
现有的视频摘要方法可以分为以下两类:1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准,例如代表性、多样性和重要性,并用它们的组合来模拟真实的视频概括标准;2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达,并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模,模型的时间和空间复杂度较高。一方面,模型需要学习的参数很多,导致模型可能不稳定;另一方面,模型的运行时间较长。
发明内容
为解决上述问题,本发明的目的在于提供一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略,利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构,并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度,对真实未加工视频中的复杂情况有更稳定的性能。
为实现上述目的,本发明的技术方案为:
一种基于一维序列学习的视频概括方法,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
进一步的,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain;
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。
进一步的,步骤S2具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710888621.1/2.html,转载请声明来源钻瓜专利网。