[发明专利]一种基于递归卷积神经网络的视频内容语义理解的方法在审
申请号: | 201811441649.1 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614896A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 李玉军;冀先朋;邓媛洁;马宝森 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 递归 视频内容 视频数据 语义理解 视频 递归神经网络 人工神经网络 语义 场景识别 高效提取 广阔应用 监控视频 目标检测 内容分析 事件检测 视频特征 视频状态 特征表征 网络视频 信息丢失 训练收敛 有机结合 分类器 视频帧 分类 卷积 内核 帧间 关联 | ||
本发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法,用于对网络视频、监控视频等视频数据进行内容分析与分类。该方法通过将卷积神经网络放置于递归神经网络内部作为内核,提出视频状态概念,实现了在视频数据中目标检测与帧间关联的有机结合,通过在视频帧间进行递归的卷积操作,实现了视频特征的准确、高效提取,获得了更具有语义表征的视频表征,并以此为基础,采用人工神经网络全连接分类器完成视频的分类、事件检测、场景识别等任务。本发明提出的方法克服了传统方法中的信息丢失、特征表征能力差、训练收敛困难等问题,是一种准确、高效、先进并具有广阔应用前景的方法。
技术领域
本发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法,属于计算机视觉技术领域。
背景技术
视频内容理解是计算机视觉中重要的基本问题之一,其目标是对视频中的图像进行特征提取并对视频帧间关系进行建模,最终获得整段视频的特征表示,以利于后续的图像分析和视频的语义理解,可用于自动驾驶、监控视频实时智能检测及网络视频审核等技术领域。
传统的视频内容处理方法有单纯单帧图像处理、光流法、基于卷积神经网络的特征提取方法、基于递归神经网络的特征提取方法或者综合使用多种方法。近年来,以神经网络为基础的深度学习技术的发展和应用,极大地推动了视频内容理解的发展。
随着网络短视频应用与视频监控技术的发展与广泛应用,利用人工智能技术对视频数据进行特征提取与内容分析成为技术与研究的热点。通过视频内容理解技术,可对视频中的人类动作、场景信息、事件信息做出高度相关的特征表示,通过对视频数据进行定量的分析实现视频内容的语义级表示,为后续的视频分类与检测提供支持,智能化地自动做出检测、分类、审核与实时预警处理。可以自动化的、准确的特征提取与表示,大量减少相关领域的人力成本,并基于此实现网络内容管理、监控视频实时与离线检测、自动驾驶等功能。
传统的视频内容理解算法总体可分为单帧图像处理方法、光流法或者综合使用多种方法。单帧图像处理方法忽略了视频的帧间关系,通过单帧图像内容估计视频总体内容,存在漏检、错检等严重不准确的情况,并缺乏视频级别的复杂内容表示能力。光流法关注于视频帧间像素变化,模糊的对视频帧间变化做出了量化分析,缺乏视频中实体检测等具体内容的识别,且对噪声比较敏感,无法对高层次的场景识别、事件检测做出准确的表示与分析。
相比以上算法,基于深度学习的视频内容理解方法,实现了利用已有数据训练神经网络模型并应用的技术,提升了视频分析效果,避免人工检查。然而,基于深度学习的视频内容理解方法虽然克服了传统算法的特征表征性能差、对噪声敏感、任务层次低等缺点,在基本的视频内容理解中取得了不错的结果。但是,目前深度学习进行视频特征提取与语义理解的方式局限于先采用卷积神经网络提取单帧信息再利用递归神经网络进行帧间关系建模的级联组合方式。此类方法存在以下两个严重问题:
第一,卷积神经网络准确的特征表示对模型输出的高维度要求、递归神经网络训练与应用中计算成本对输入数据的低维度要求,此两者之间的矛盾导致两者的级联结合方式中存在关键性的瓶颈,丢失了大量关键信息,因此,无法有效利用视频的帧间关系为神经网络模型的训练提供有效的监督,在实际应用中,难以精确地对视频整体内容作出合理检测。
第二,此类传统方式以物体检测为中心,基于多帧间不同形态的物体来估计视频内容,割裂了物体检测与帧间变化两个概念。现实场景中存在极多不同形态的物体,其准确表征导致了深度学习领域的维数灾难问题,对训练数据集的规模要求过高。并且,对动作长度、场景切换的鲁棒性较差。
卷积神经网络与递归神经网络级联的视频内容理解模型基于上述局限,对卷积神经网络的特征输出维度做出一定限制,低维度的输出丢失大量信息,递归神经网络无法准确对视频帧间关系进行有效建模。
因此,如何有效、合理地结合视频中物体检测与动作识别两个任务来设计神经网络模型结构,是现在要解决的重要问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811441649.1/2.html,转载请声明来源钻瓜专利网。