[发明专利]一种基于一维序列学习的视频概括方法有效

申请号：	201710888621.1	申请日：	2017-09-27
公开（公告）号：	CN107729821B	公开（公告）日：	2020-08-11
发明（设计）人：	黄思羽;李玺;张仲非	申请（专利权）人：	浙江大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	杭州宇信知识产权代理事务所(普通合伙) 33231	代理人：	张宇娟
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于序列学习视频概括方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于一维序列学习的视频概括方法，其特征在于，包括以下步骤：

S1、获取用于训练模型的视频数据集，所述视频数据集包括视频X_train以及人工标注的逐帧重要性分数Y_train，并定义算法目标为：预测视频x＝{x₁，x₂，...，x_T}中的关键视频片段，即x的子集x_key∈x，x₁,x₂,...,x_T分别表示视频的每一帧，T是视频帧的数量；

S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模，得到序列特征模型，具体包括：

S21、将视频x＝{x₁，x₂，...，x_T}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征υ＝{υ₁，υ₂，…，υ_T}，v₁,v₂,...,v_T分别对应每一帧的空间语义特征；此神经网络表示为映射

S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络，进一步建模其时序语义结构得到h＝{h₁，h₂，...，h_t，...，h_T}，h₁,h₂,...,h_T分别对应每一帧的时间语义特征；此神经网络表示为映射

S3、通过所述序列特征模型，基于样本视频的序列特征建立逐帧分数预测模型；

S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。

2.如权利要求1所述的基于一维序列学习的视频概括方法，其特征在于，步骤S3中具体包括：

S31、建立一维全卷积神经网络，将S22中得到的h＝{h₁，h₂，...，h_t，...，h_T}作为其输入：

其中W^(l，f，j)和b^(l，f，j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图，φ是激活函数，F_l是l层特征图的数目，h是一维全卷积神经网络第0层的特征图z⁽⁰⁾，第L个卷积层的输出作为一维全卷积神经网络的输出；

S32、对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致，y＝{y₁，y₂，...，y_T}表示逐帧重要性分数序列；S31和S32的神经网络统一表示为映射

S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络，其结构可以表示为从视频x到逐帧重要性分数y的映射x→y；

S34、神经网络x→y使用欧几里得损失函数，表示为

其中y是神经网络的输出，y_gt是人工标注的逐帧重要性分数，使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。

3.如权利要求2所述的基于一维序列学习的视频概括方法，其特征在于，步骤S4中，使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括：

S41、根据帧间光流的绝对值，将视频分割为不重叠的片段；

S42、使用0/1背包算法，选取拥有最大重要性分数且时间总长度小于某阈值的片段x_key∈x作为输入视频的关键片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710888621.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载