[发明专利]一种基于场景、动作和文本的视频问答方法在审

申请号：	201811150556.3	申请日：	2018-09-29
公开（公告）号：	CN109472201A	公开（公告）日：	2019-03-15
发明（设计）人：	朱向雷;杜志彬;赵帅;张鲁;武毅男;周博林;翟洋;陈蔯	申请（专利权）人：	天津卡达克数据有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	长春市恒誉专利代理事务所(普通合伙) 22212	代理人：	鞠传龙
地址：	300393 天津市西***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于场景、动作和文本的视频问答方法，其方法为：步骤一、构成视频问答训练集；步骤二、利用视频截取工具截取视频帧；步骤三、构造场景模型；步骤四、得到视频的动作特征表示；步骤五、得到场景‑动作‑文本模型的参数；步骤六、通过场景‑动作‑文本模型预测出合适的答案。有益效果：将得到的视觉信息作为文本模型的初始化，这就如同看完视频后回答问题。在文本模型中，视觉信息的初始化能够更好的解析出视频的语义信息，从而对视频问题给出合适的答案。因此，该方法取得了良好的效果。
搜索关键词：	视频文本模型场景视觉信息初始化文本答案动作特征构造场景视频截取语义信息视频帧训练集截取解析预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于场景、动作和文本的视频问答方法，其特征在于：其方法如下所述：步骤一、从互联网下载视频，并对每个视频提出问题，同时针对问题给出答案，形成<视频，问答对>，构成视频问答训练集；步骤二、利用视频截取工具截取视频帧，并对视频帧进行采样，每一帧都是一张静态图像；步骤三、构造场景模型，逐帧处理视频帧，得到视频帧的场景特征向量，并将其作为长短期记忆网络的输入得到视频的场景特征表示；步骤四、提取视频的光流图，并采样出与步骤二中的视频帧对应的光流图，构造动作模型，逐帧处理视频帧以及与其对应的光流图，得到视频帧的动作特征向量，并将其输入到长短期记忆网络中得到视频的动作特征表示；步骤五、将视频的场景特征表示和动作特征表示作为文本模型的初始化，文本模型采用长短期记忆网络进行设计，采用端到端的方式进行训练，得到场景‑动作‑文本模型的参数；步骤六、输入待回答问题的视频帧的场景特征向量和动作特征向量，以及待回答问题的文本特征，通过场景‑动作‑文本模型预测出合适的答案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津卡达克数据有限公司，未经天津卡达克数据有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811150556.3/，转载请声明来源钻瓜专利网。

上一篇：一种智能的海面垃圾检测方法、系统和存储介质
下一篇：一种基于车载摄像头的路面标志检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于场景、动作和文本的视频问答方法在审

专利文献下载