[发明专利]基于GRU网络的视频摘要生成方法与系统有效
| 申请号: | 202011349745.0 | 申请日: | 2020-11-26 |
| 公开(公告)号: | CN112468888B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 陈周元 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | H04N21/8549 | 分类号: | H04N21/8549;H04N21/466;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
| 地址: | 510090 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 gru 网络 视频 摘要 生成 方法 系统 | ||
本发明提供的一种基于GRU网络的视频摘要生成方法,包括:对输入的原始视频下采样并进行特征提取,生成视频帧序列;基于GRU网络的Seq2Seq模型对视频帧序列进行分析并捕捉视频序列的上下文信息,生成每一帧的重要性得分;根据重要性得分结果,使用非极大值抑制算法提取关键帧并去除冗余帧,获取静态视频摘要和动态视频摘要。本发明还提供的一种基于GRU网络的视频摘要生成系统,通过在Seq2Seq模型中引入GRU网络单元,使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素,同时减少模型的参数,有效减少了模型的计算量;使用非极大值抑制算法可以有效处理冗余帧,从而获取更具代表性的视频摘要。
技术领域
本发明涉及机器学习技术领域,更具体的,涉及一种基于GRU网络的视频摘要生成方法与系统。
背景技术
如今大量的数字视频被生产并应用于教育、娱乐、监视、信息存档等领域,数字视频已经成为人们视觉信息的最重要来源之一。大量的视频数据增加了人们对于数字视频浏览,筛选和存储的压力。依照传统的方法,用户只能通过视频标题、简介、标签等有限的外部资源信息了解视频的内容,而对视频本身的内容没有一个直观的理解,因此需要相应的技术和工具来提高用户对视频内容信息的获取。针对这些问题,研究人员提出了视频摘要生成技术,它通过分析一定长度的视频数据中信息的稀疏性,从原始视频数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的缩略数据,使用户在更短的时间内快速理解视频。根据视频摘要的生成形式,将基于关键帧的视频摘要称为静态视频摘要,将基于动态视觉信息的视频摘要称为动态视频摘要。
目前对视频摘要生成的研究主要分为无监督学习的生成方法和有监督学习的生成方法。无监督学习方法通过自定义直观的标准来挑选关键帧或关键镜头,进而组合成相应的视频摘要。其中聚类算法在近年来被广泛地运用于视频数据分析领域。对于基于无监督聚类的方法,其基本思想是通过将相似的帧/镜头聚类在一起,然后在每个聚类中选取特定数量的帧(通常每个聚类一帧)来产生摘要。对于这种方法,重点在于模型需要选择可以认为帧相似的特征(例如,颜色分布,亮度,运动矢量),进而建立可用于测量相似性的不同标准。使用的聚类算法生成摘要所花费的时间大约是视频长度的数倍,这意味着用户需要等待一个小时,才能获得长度为十几分钟的视频的摘要简述。除此之外,由于聚类算法通常只关注视频帧的重要性程度,容易忽略掉视频的时域信息对摘要生成的影响。
有监督学习方法是利用人工编辑的摘要示例(或帧级重要性得分)来学习如何总结一个未知的视频。在识别实体(对象),上下文(场景)及其交互(事件)方面,对视频语义的学习象征着更高的理解水平。有监督学习方法能准确地捕获视频帧的选择标准,并输出与人类对视频内容的语义理解更加一致的那些帧的子集。由于这种方法明确地从人工创建的摘要中学习,因此有监督的方法可以更好地拟合人类对输入视频进行总结的方式。有监督学习方法又可以分为传统机器学习方法和深度学习方法。传统机器学习方法使用手工制作的特征来学习模型,而深度学习则使用卷积神经网络(CNN)来提取深度特征,并随着学习的进行自动进行特征选择。如公开号CN104244113A的中国发明专利于2017年9月22日公开的一种基于深度学习技术的视频摘要生成方法。但以上两者都依赖于准确标记的数据集,但是由于深度学习技术开发端到端的学习模型需要大量的参数进行调整,因此需要大量的训练数据。这些通过有监督学习的方法获得的视频摘要在一些领域中具有较高的性能,但一些研究者一味追求模型的性能,使得模型的计算量大大增加;还有一些研究者的模型对呈现长镜头的视频的表征能力较强,但对呈现短镜头的视频无法很好地提炼主要内容;除此之外,大多数模型往往忽略了对冗余帧的判定和处理。
发明内容
本发明为克服现有的生成视频摘要的模型存在计算量大及忽略对冗余帧的判定和处理的技术缺陷,提供一种基于GRU网络的视频摘要生成方法与系统。
为解决上述技术问题,本发明的技术方案如下:
基于GRU网络的视频摘要生成方法,包括以下步骤:
S1:对输入的原始视频下采样并进行特征提取,生成视频帧序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011349745.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于精密机械生产的高效钻床
- 下一篇:一种剩余油分散程度表征方法





