[发明专利]一种基于描述文本的视频问答方法在审

申请号：	202111439356.1	申请日：	2021-11-30
公开（公告）号：	CN114387537A	公开（公告）日：	2022-04-22
发明（设计）人：	胡锦祥;孟朝晖	申请（专利权）人：	河海大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/74;G06V10/764;G06V10/774;G06K9/62;G06V10/82;G06F16/2457;G06F40/284;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	周科技
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于描述文本视频问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于描述文本的视频问答方法，其特征在于：所述方法包括如下步骤：

步骤1，根据所有问题和答案生成相应的先验知识库G；

步骤2，通过卷积神经网络提取视频的帧特征和运动特征，并表示为二组固定维度的特征实值向量Vf、Vm；

步骤3，通过常识特征提取网络提取视频帧的常识特征实值向量Vc；

步骤4，将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算，得到视频最终的特征向量表示Φ(V)；

步骤5，将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw；

步骤6，通过对视频描述文本Dw进行关键词提取，在先验知识库G中查询相应的知识，根据查询结果生成补充描述Gw，并将视频描述文本Dw和补充描述Gw两者合并得到最终的描述文本Vd；

步骤7，对视频描述文本Vd和问题文本进行特征提取，利用问答处理网络对两者进行处理，将处理结果输入到分类器中得到预测的答案，结合先验知识库G判断预测的准确性，完成基于描述文本的视频问答。

2.根据权利要求1所述的基于描述文本的视频问答方法，其特征在于：所述步骤1包括以下步骤：

步骤1-1，将问题文本的疑问词根据答案进行替换，得到相应的陈述句；

步骤1-2，对问题陈述语句进行关键词提取，并根据词语间的关系生成三元组W,R,W，其中W表示单词，R表示单词间的关系；

步骤1-3，根据关系三元组W,R,W，将W作为图的节点，R作为边，构建先验知识库G。

3.根据权利要求1所述的基于描述文本的视频问答方法，其特征在于：所述步骤2包括以下步骤：

步骤2-1，根据视频所包含的帧数，等间隔地提取n帧图像；

步骤2-2，根据提取的n帧图像，利用卷积神经网络ResNet获取视频的帧特征向量表征Vf＝{Vf₁，Vf₂,……,Vf_n}，并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量，其中Vf_n表示第n个视频帧对应的帧特征；

步骤2-3，根据视频所包含的帧数，等间隔地分为t个视频片段；

步骤2-4，根据划分的t个视频片段，利用卷积神经网络ResNext获取视频的运动特征向量表征Vm＝{Vm₁，Vm₂，……,Vm_t}，并将视频的运动特征向量表征Vm作为视频对应的运动特征实值向量，其中Vm_t表示第t个视频片段对应的运动特征。

4.根据权利要求1所述的基于描述文本的视频问答方法，其特征在于：所述步骤3包括以下步骤：

步骤3-1，通过稀疏采样的方法提取视频的K帧图像；

步骤3-2，将提取的K帧图像输入到在COCO数据集上预训练的VC-RNN网络进行常识特征提取，得到相应的常识特征向量表征Vc＝{Vc₁,Vc₂，……,Vc_k}，并将常识特征向量表征Vc作为视频对应的常识特征实值向量，其中Vc_k表示第k个视频帧对应的常识特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111439356.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载