[发明专利]利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统有效
申请号: | 202010795917.0 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111652202B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 赵洲;何金铮;金韦克 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06F16/332;G06F16/9537 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 自适应 时空 模型 通过 提升 视频 语言 表征 学习 解决 问答 问题 方法 及其 系统 | ||
1.一种利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法,其特征在于包括如下步骤:
1)对于一段视频,采用目标检测技术提取出每个视频帧中的目标级别特征,将目标级别特征组合后获得视频帧中的初始区域特征;
2)构建由多层时空图组成的时空图模型,每一层时空图均包括空间图模型和时序图模型,采用空间图模型对区域特征进行空间更新;
构建视频帧中每一个目标区域对应的锚管,并根据视频帧依次更新,然后将锚管里面的目标按照时序排列,形成时空管,利用所述时空管中的目标构成时序图,对空间更新后的区域特征进行时序更新;
将步骤1)获得的初始区域特征作为第一层时空图的输入,并将前一层时空图输出的时序更新后的区域特征作为下一层时空图的输入,形成由多层时空图组成的时空图模型;最后一层时空图输出的时序图作为时空图模型的最终输出,再经时序GRU编码后获得视频管级别的表征;
所述的步骤2)具体为:
2.1)构建空间图模型,计算每一个视频帧中两两区域之间的相似性,获得每一个视频帧对应的相似性矩阵,并对区域特征进行空间更新;
2.2)构建锚管和时空管:
提取第一个视频帧中的目标区域进行初始化锚管集合;计算当前视频帧中的目标与锚管中的目标之间的相似性分数,若相似性分数大于阈值,则将当前视频帧中的目标添加到对应的锚管中,否则,将当前视频帧中的目标作为新的锚管添加到锚管集合中;将每一个锚管中的目标序列按照时序进行排列,构成时空管;
2.3)根据更新后的时空管构建时序图模型,使用每个时空管里面的目标构成时序图;
2.4)在步骤2.3)获得的时序图的基础上构建图卷积神经网络,根据步骤2.1)经空间更新后的区域特征、以及步骤2.2)获得的相似性分数,对空间更新后的区域特征进行时序更新;
2.5)所述的步骤2.1)至步骤2.4)形成一层时空图,重复此步骤,将前一层时空图输出的时序更新后的区域特征作为下一层时空图的输入,形成由多层时空图组成的时空图模型;最后一层时空图处理完后,输出时序图作为时空图模型的最终输出,经时序GRU编码后获得视频管级别的表征;
3)构建视频-语言Transformer模型,包括步骤2)所述的时空图模型和Transformer模型,将问题语句以及经步骤2)输出的视频管级别的表征作为Transformer模型的输入,根据问题的标准答案对视频-语言Transformer模型进行训练;所述的Transformer模型为采用图片-语言数据集进行预训练的Transformer模型;
4)针对待处理的问题语句,使用训练好的视频-语言Transformer模型直接获得所要解答的问题的答案。
2.根据权利要求1所述的一种利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法,其特征在于,步骤2.1)所述的相似性为同一个视频帧中的不同区域之间的相似性,采用可训练的矩阵计算得到;步骤2.2)所述的相似性分数为不同视频帧中的不同区域之间的相似性,采用视觉特征相似性、临界特征相似性和空间几何特征相似性的平均值计算得到。
3.根据权利要求1所述的一种利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法,其特征在于,所述空间更新的计算公式为:
Vs=GsPsWs
其中,Vs为空间更新后的区域特征,Gs为相似性矩阵,Ps为上一层时空图输出的区域特征,初始状态下采用所述的初始区域特征;Ws为可训练的矩阵。
4.根据权利要求1所述的一种利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法,其特征在于,所述时序更新的计算公式为:
Vt=GtPtWt
其中,Vt为时序更新后的区域特征,Gt为相似性分数,Pt为该层时空图中经过空间更新后的区域特征,Wt为可训练的矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010795917.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于编码-解码网络的音乐伴奏自动生成方法及其系统
- 下一篇:电子锁装置