[发明专利]基于长短期记忆网络强化学习的水下视频摘要生成方法有效
| 申请号: | 201810884718.X | 申请日: | 2018-08-06 |
| 公开(公告)号: | CN109213896B | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 陈华杰;张杰豪;姚勤炜;侯新雨 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/73 | 分类号: | G06F16/73;H04L12/24;H04N21/8549 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 黄前泽 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 短期 记忆 网络 强化 学习 水下 视频 摘要 生成 方法 | ||
本发明公开基于长短期记忆网络强化学习的水下视频摘要生成方法。本发明首先构建语义特征网络、长短期记忆网络、多层感知器网络;然后对摘要视频进行质量评估:多样性与代表性。最后根据质量评估的两个回报函数,采用强化学习中典型的策略梯度的方法训练整个视频摘要网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。
技术领域
本发明属于深度学习及视频分析技术领域,涉及一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
背景技术
在视频分析领域,视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。在实际应用于水下视频时,目前已有方法主要面对两大问题:一是视频标注数据较少(甚至没有)时的视频摘要,也就是弱(无)监督学习的视频摘要生成;二是针对水下视频的特征映射:水下视频的特性、包含场景、目标类型等均有别于常规的陆地上拍摄的视频,那么其特征映射方式就需要重新设计。本发明所提出的基于长短期记忆网络强化学习的水下视频摘要方法就是将时空关联建模作为突破口。
原始视频是时-空维度上的数据集合,视频摘要就是从这个数据集合上抽取有代表性的子集。视频摘要涉及到两个关键的处理环节:特征映射与时空关联建模。特征映射是将原始视频映射到特征空间,降低数据维度的同时初步降低数据冗余度,在特征空间上的相似性测度比在原始数据空间上的相似性测度有可能更符合人的视觉特点。时空关联是指视频数据集合在时间与空间上的相关性,视频数据的冗余一定程度上就体现其时空上的关联;挖掘这种时空关联模式,有助于抽取出相互独立的且有代表性的摘要视频子集。
在特征映射与时空关联建模这两个关键处理环节上,基于深度学习的视频摘要方法比传统的视频摘要方法具有优势。在特征映射方面,与传统的颜色、纹理、边缘、视觉显著性等特征相比,在大量样本的支撑下,卷积神经网络(Convolutional Neural Network,CNN)能提供的特征描述层次更多,内容更丰富,且适应性更强。本发明采用长短期记忆网络(Long Short-Term Memory,LSTM)对视频中存在的变时间长度关联结构进行时空关联建模,对其有更好的描述。
发明内容
本发明的目的在于针对传统视频摘要方法的不足,为深度学习及视频分析研究提供一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
本发明方法包括以下步骤:
步骤(1)、设计与训练语义特征网络。
从水下监测需求出发,相关的语义内容包括感兴趣目标的类型、时空定位以及运动信息等。鉴于典型CNN在视觉特征提取上的良好表现,可以基于典型CNN构建语义特征网络。在CNN的大框架下,语义特征映射网络的结构设计的主要内容是其容量,如卷积层数、总的通道数等。制约容量设计有两方面的因素:其一是语义特征表达的需求,从底层特征逐步上升到高层语义,需要网络有足够的容量;其二是训练样本数的约束,特定目标的水下视频样本数量相对少,为了保证网络的泛化能力,网络的容量必须限制在于与样本相匹配的程度。在感兴趣目标水下视频相对有限的条件下,选择较为粗略的二分类方案,对CNN的容量的要求较低,从而能够保证获取的特征有较强的适应性。
语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征。
步骤(2)、设计长短期记忆网络结构。
采用长短期记忆网络(LSTM)对视频帧集合在不同时间尺度上关联进行建模,输出隐藏状态以便后续步骤中与步骤(1)的每帧特征信息结合,最终构建关键帧集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810884718.X/2.html,转载请声明来源钻瓜专利网。





