[发明专利]一种基于场景、动作和文本的视频问答方法在审
申请号: | 201811150556.3 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109472201A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 朱向雷;杜志彬;赵帅;张鲁;武毅男;周博林;翟洋;陈蔯 | 申请(专利权)人: | 天津卡达克数据有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 鞠传龙 |
地址: | 300393 天津市西*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 文本模型 场景 视觉信息 初始化 文本 答案 动作特征 构造场景 视频截取 语义信息 视频帧 训练集 截取 解析 预测 | ||
本发明公开了一种基于场景、动作和文本的视频问答方法,其方法为:步骤一、构成视频问答训练集;步骤二、利用视频截取工具截取视频帧;步骤三、构造场景模型;步骤四、得到视频的动作特征表示;步骤五、得到场景‑动作‑文本模型的参数;步骤六、通过场景‑动作‑文本模型预测出合适的答案。有益效果:将得到的视觉信息作为文本模型的初始化,这就如同看完视频后回答问题。在文本模型中,视觉信息的初始化能够更好的解析出视频的语义信息,从而对视频问题给出合适的答案。因此,该方法取得了良好的效果。
技术领域
本发明涉及一种视频问答方法,特别涉及一种基于场景、动作和文本的视频问答方法。
背景技术
目前,在计算机视觉和多媒体分析领域中,视频分析是一项非常重要且极具有挑战性的任务。视频问答作为视频分析的一种媒介,近年来引起了大量的关注。随着视频数据的急速增长,理解视频内容并根据视频内容回答与视频相关的问题,对视频问答方法的研究是非常有必要的。
视频问答是指对给定的视频以及针对该视频提出的问题,通过获取他们的视觉信息和语义信息,对问题给出合适的答案的过程。当人们观看一段视频时,会通过视频帧展现的场景信息来获取视频中的人物、物体和环境等;同时,随着时间推移,从视频帧之间可以获取视频中的事件、动作信息等。如何有效的利用视频帧之间的动作信息是处理视频问答的一个重点也是一个难点。
近年来,深度学习在视觉任务和自然语言处理任务等方面取得的成功是其主要驱动力。用卷积网络提取卷积特征,广泛的应用到物体识别、物体检测、图像分类等视觉任务;另一方面,循环神经网络,尤其是长短期记忆网络,大大的加速了自然语言处理任务和多种时序任务的发展。为了更好的理解视觉内容,如今最常采用的方法是将视觉和语言进行结合。最早对视觉内容的研究起始于图片描述任务。图片描述指的是通过生成自然语言来描述图片的语义信息。当人们看到一张图片时,便会对图片有了一定程度的了解,并通过自然语言去讲述图片中发生的事情。为了解决图片描述任务,起初最常采用的方法是先识别出图片中的物体,然后利用语言模型对识别出的物体进行排序得到输出的句子。后来,研究者提出了编码、解码框架,使用端到端方法来生成图片的语义描述。为了更好的关注图片中出现的物体,显出物体和其他场景等因素的差异性,研究者提出了注意力模型来关注发生明显变化的物体。后来又出现了对视频描述以及对图片问答的研究,这些都大大的推进了视频问答方法的研究。相比于图片问答,视频问答不仅要学习每帧图片的信息,还要学习视频帧之间的信息,例如视频中物体移动的速度,物体视角点的变换,背景噪音等,迫切要解决的就是有效利用视频帧以及视频帧之间的信息。最早处理问答的方法是根据视频信息和文本信息构造一个联合分析图,然后建立一个问答系统,后来又提出了编码、解码框架并通过排序损失函数等方法来利用视频中的时间信息。
在视频问答中,如何利用视频帧的视觉信息,以及如何利用视频帧之间的时间信息来获取更深层的视觉信息,并将视觉信息和语义信息有效的结合在一起,是视频问答的关键和难点。
发明内容
本发明的目的是为了解决如何利用视频帧的视觉信息,以及如何利用视频帧之间的时间信息来获取更深层的视觉信息,并将视觉信息和语义信息有效的结合在一起而提供的一种基于场景、动作和文本的视频问答方法。
本发明提供的基于场景、动作和文本的视频问答方法,其方法如下所述:
步骤一、从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集;
步骤二、利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;
步骤三、构造场景模型,逐帧处理视频帧,得到视频帧的场景特征向量,并将其作为长短期记忆网络的输入得到视频的场景特征表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津卡达克数据有限公司,未经天津卡达克数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811150556.3/2.html,转载请声明来源钻瓜专利网。