[发明专利]基于三维密集网络的镜头边界检测方法有效
| 申请号: | 201910900958.9 | 申请日: | 2019-09-23 |
| 公开(公告)号: | CN110460840B | 公开(公告)日: | 2020-06-26 |
| 发明(设计)人: | 赵晓丽;张翔;张嘉祺;方志军;李国平;商习武;王国中 | 申请(专利权)人: | 上海工程技术大学 |
| 主分类号: | H04N17/00 | 分类号: | H04N17/00;G06N3/04 |
| 代理公司: | 上海唯智赢专利代理事务所(普通合伙) 31293 | 代理人: | 刘朵朵 |
| 地址: | 201620 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 三维 密集 网络 镜头 边界 检测 方法 | ||
本发明公开了一种基于三维密集网络的镜头边界检测方法,步骤为:将视频分为帧段后随机分配标签,再将其输入三维密集网络完成分类;三维密集网络包括顺序连接的三维卷积层、最大池化层、四镜头边界检测块和线性层,三维卷积层为输入层,线性层为输出层,镜头边界检测块包括首尾连接的多组重复单元,重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块,上一组重复单元的输出作为下一组重复单元的输入,镜头边界检测块后均连有过渡层,过渡层包括Batch Normalization、RELU、一卷积和平均池化层。本发明提高三维卷积结合视频的时空特征,采用密集网络进行特征复用,不仅提高了检测准确度,还降低了计算复杂度。
技术领域
本发明属于视频内容分析技术领域,涉及一种可用于视频分析与检索中的镜头边界检测技术,特别涉及一种基于三维密集卷积网络(3D DenseNet)的镜头边界检测方法。
背景技术
计算机和多媒体技术的迅速发展,产生大量视频数据。如何在大量视频中找到所需信息的视频检索技术成为研究的热点问题。视频检索的第一步是提取特征,提取特征首先要对视频镜头进行分割,镜头边界检测就是一种视频分割的重要方式。一般镜头转换方式分为两种:渐变(Gradual)和切变(Shape)。渐变是指相邻镜头之间逐渐发生变化,延续十几或者几十帧;切变是指下一个镜头在上一个镜头结束后立刻出现。镜头边界检测目前广泛应用于数字电视、交通监控、电子警察、银行监控、商业信息管理和国家安全等相关行业。商业应用可以带来巨大的经济利益,国家安全的应用可以维护社会的稳定和发展。
常用的镜头边界检测方法有直方图法、阈值法、互信息法、支持向量机法和深度学习法等。本领域技术人员针对以上方法做了许多研究工作。《Fast Video Shot BoundaryDetection Based on SVD and Pattern Matching》(International Workshop onSystems.IEEE,2007.)提出了提取视频帧的HSV域颜色直方图作为特征,使用奇异值分解来描述颜色直方图,其计算复杂度较低,提升了检测的速度,但检测精度不理想;《Information theory-based shot cut/fade detection and video summarization》(Transactions on CircuitsSystems for Video Technology,2005,16(1):82-91.)使用互信息和联合熵的方法描述视频帧间相似性,比较相邻帧的相似性和全局阈值的关系找到镜头,此方法没有考虑到局部内容的变化使得准确率受到影响;《Shot BoundaryDetection by a Hierarchical Supervised Approach》(International Workshop onSystems.IEEE,2007.)利用支持向量机作为一个分类器区分镜头边界和非镜头边界,效果并不理想;《Learning Spatiotemporal Features with 3D Convolutional Networks》(International Conference on Computer Vision(ICCV),2015,4489-4497.)提出了3D卷积网络更适合在大规模视频数据集上学习,易于训练和使用;《Large-scale,Fast andAccurate Shot Boundary Detection through Spatio-temporal Convolutional NeuralNetworks》(arXiv preprint arXiv:1705.03281,2017.)通过一个C3D网络,以固定长度的段作为输入,并将其分为渐变、切变和不变三类,该方法验证了ConvNet在该任务中的有效性,但是处理不同尺度的渐变时,无法定位镜头边界;《Ridiculously Fast Shot BoundaryDetection with Fully Convolutional Neural Networks》(arXiv preprint arXiv:1705.08214,2017.)采用全卷积网络,它以整个视频序列作为输入,并在过渡中将正标签分配给帧,从而检测镜头边界,但并没有解决尺度不同的定位问题;《Fast Video ShotTransition Localization with Deep Structured Models》(arXiv preprint arXiv:1808.04234,2018.)构建初始滤波、切变检测和渐变检测三部分组成的检测框架,采用了C3D ConvNet和ResNet-18网络的级联架构,提高了实时速度,但网络层次加深出现的冗余等问题没有解决。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海工程技术大学,未经上海工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910900958.9/2.html,转载请声明来源钻瓜专利网。





